日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python數據預處理 :樣本分布不均的解決(過采樣和欠采樣)

瀏覽:24日期:2022-08-05 09:53:51

何為樣本分布不均:

樣本分布不均衡就是指樣本差異非常大,例如共1000條數據樣本的數據集中,其中占有10條樣本分類,其特征無論如何你和也無法實現完整特征值的覆蓋,此時屬于嚴重的樣本分布不均衡。

為何要解決樣本分布不均:

樣本分部不均衡的數據集也是很常見的:比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、設備故障、大企業客戶流失等。

樣本不均衡將導致樣本量少的分類所包含的特征過少,很難從中提取規律,即使得到分類模型,也容易產生過度依賴于有限的數量樣本而導致過擬合問題,當模型應用到新的數據上時,模型的準確性和健壯性將會很差。

樣本分布不均的解決方法:

過采樣 通過增加分類中樣本較少的類別的采樣數量來實現平衡,最直接的方法是簡單復制小樣本數據,缺點是如果特征少,會導致過擬合的問題。經過改進的過抽樣方法通過在少數類中加入隨機噪聲、干擾數據或通過一定規則產生新的合成樣本。

欠采樣 通過減少分類中多數類樣本的數量來實現樣本均衡,最直接的方法是隨機去掉一些多數類樣本來減小多數類的規模,缺點是會丟失多數類中的一些重要信息。

設置權重 對不同樣本數量的類別賦予不同的權重(通常會設置為與樣本量成反比)

集成方法 每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取數據來與小樣本量合并構成訓練集,這樣反復多次會得到很多訓練集和訓練模型。最后在應用時,使用組合方法(例如投票、加權投票等)產生分類預測結果。這種方法類似于隨機森林。缺點是,比較吃計算資源,費時。

python代碼:

# 生成不平衡分類數據集from collections import Counterfrom sklearn.datasets import make_classificationX, y = make_classification(n_samples=3000, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=3, n_clusters_per_class=1, weights=[0.1, 0.05, 0.85], class_sep=0.8, random_state=2018)Counter(y)# Counter({2: 2532, 1: 163, 0: 305})# 使用RandomOverSampler從少數類的樣本中進行隨機采樣來增加新的樣本使各個分類均衡from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler(random_state=0)X_resampled, y_resampled = ros.fit_sample(X, y)sorted(Counter(y_resampled).items())# [(0, 2532), (1, 2532), (2, 2532)]# SMOTE: 對于少數類樣本a, 隨機選擇一個最近鄰的樣本b, 然后從a與b的連線上隨機選取一個點c作為新的少數類樣本from imblearn.over_sampling import SMOTE X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y) sorted(Counter(y_resampled_smote).items())# [(0, 2532), (1, 2532), (2, 2532)]# ADASYN: 關注的是在那些基于K最近鄰分類器被錯誤分類的原始樣本附近生成新的少數類樣本from imblearn.over_sampling import ADASYNX_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_sample(X, y) sorted(Counter(y_resampled_adasyn).items())# [(0, 2522), (1, 2520), (2, 2532)]# RandomUnderSampler函數是一種快速并十分簡單的方式來平衡各個類別的數據: 隨機選取數據的子集.from imblearn.under_sampling import RandomUnderSamplerrus = RandomUnderSampler(random_state=0)X_resampled, y_resampled = rus.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 163), (1, 163), (2, 163)]# 在之前的SMOTE方法中, 當由邊界的樣本與其他樣本進行過采樣差值時, 很容易生成一些噪音數據. 因此, 在過采樣之后需要對樣本進行清洗. # 這樣TomekLink 與 EditedNearestNeighbours方法就能實現上述的要求.from imblearn.combine import SMOTEENNsmote_enn = SMOTEENN(random_state=0)X_resampled, y_resampled = smote_enn.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 2111), (1, 2099), (2, 1893)]from imblearn.combine import SMOTETomeksmote_tomek = SMOTETomek(random_state=0)X_resampled, y_resampled = smote_tomek.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 2412), (1, 2414), (2, 2396)]# 使用SVM的權重調節處理不均衡樣本 權重為balanced 意味著權重為各分類數據量的反比from sklearn.svm import SVC svm_model = SVC(class_weight=’balanced’)svm_model.fit(X, y)# # EasyEnsemble 通過對原始的數據集進行隨機下采樣實現對數據集進行集成.# EasyEnsemble 有兩個很重要的參數: (i) n_subsets 控制的是子集的個數 and (ii) replacement 決定是有放回還是無放回的隨機采樣.from imblearn.ensemble import EasyEnsembleee = EasyEnsemble(random_state=0, n_subsets=10)X_resampled, y_resampled = ee.fit_sample(X, y)sorted(Counter(y_resampled[0]).items())# [(0, 163), (1, 163), (2, 163)]# BalanceCascade(級聯平衡)的方法通過使用分類器(estimator參數)來確保那些被錯分類的樣本在下一次進行子集選取的時候也能被采樣到. 同樣, n_max_subset 參數控制子集的個數, 以及可以通過設置bootstrap=True來使用bootstraping(自助法).from imblearn.ensemble import BalanceCascadefrom sklearn.linear_model import LogisticRegressionbc = BalanceCascade(random_state=0, estimator=LogisticRegression(random_state=0), n_max_subset=4)X_resampled, y_resampled = bc.fit_sample(X, y) sorted(Counter(y_resampled[0]).items())# [(0, 163), (1, 163), (2, 163)]# BalancedBaggingClassifier 允許在訓練每個基學習器之前對每個子集進行重抽樣. 簡而言之, 該方法結合了EasyEnsemble采樣器與分類器(如BaggingClassifier)的結果.from sklearn.tree import DecisionTreeClassifierfrom imblearn.ensemble import BalancedBaggingClassifierbbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(),ratio=’auto’,replacement=False,random_state=0)bbc.fit(X, y)

以上這篇python數據預處理 :樣本分布不均的解決(過采樣和欠采樣)就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
偷拍欧美精品| 日韩av影院| 国产一区二区三区不卡av | 日韩三级视频| 亚洲天堂免费| 深夜日韩欧美| 久久精品超碰| 久久永久免费| 伊人网在线播放| 日韩啪啪电影网| 欧美色图一区| 秋霞影院一区二区三区| 91精品高清| 免费视频最近日韩| 日韩精品91亚洲二区在线观看| 欧美一区=区三区| 久久av中文| 欧美丰满日韩| 激情欧美一区二区三区| 日韩中文字幕麻豆| 国产亚洲一区| 高清精品久久| 欧美亚洲国产激情| 日韩精品一级中文字幕精品视频免费观看| 蜜桃免费网站一区二区三区| 国产亚洲久久| 黄色网一区二区| 婷婷成人基地| 日韩精品一区二区三区中文字幕| 免费视频一区二区三区在线观看 | 欧美1区2区3| 久久久久中文| 亚洲欧美日本视频在线观看| 国产亚洲欧美日韩在线观看一区二区| 国产一区二区三区天码| 亚洲精品在线观看91| 日韩高清一区| 老牛国内精品亚洲成av人片| 日韩伦理一区| 日本欧洲一区二区| 欧美激情综合| 亚洲精品小说| 国产精品中文字幕制服诱惑| 久久久精品午夜少妇| 婷婷亚洲精品| 神马久久午夜| 蜜桃一区二区三区在线观看 | 国产乱人伦精品一区| 亚洲播播91| 亚洲香蕉久久| 韩国女主播一区二区三区| 成人日韩在线| 日韩国产高清在线| 久久九九电影| 国产精品中文字幕制服诱惑| 91成人精品视频| 欧美韩一区二区| 玖玖精品视频| av在线最新| 91精品国产自产观看在线| 欧美日韩免费观看视频| 日韩精品三级| 1000部精品久久久久久久久| 欧美有码在线| 好吊视频一区二区三区四区| 麻豆国产精品777777在线| 亚洲激情中文| 国产精品成久久久久| 亚洲精品在线a| 国产一区二区中文| 久久伊人国产| 91精品国产自产精品男人的天堂| 91精品91| 日韩在线中文| 国产精品66| 免费人成在线不卡| 精品亚洲美女网站| 久久av超碰| 婷婷综合成人| 夜夜精品视频| 精品高清久久| 日韩精品一级| 日韩视频一区| 色偷偷偷在线视频播放| 国产精品一国产精品| 亚洲色图综合| 国产韩日影视精品| 日韩中文在线电影| 国产精品v一区二区三区| 亚洲无线观看| 在线视频免费在线观看一区二区| 深夜福利视频一区二区| 精品视频久久| 91av一区| 午夜性色一区二区三区免费视频| 亚洲激情婷婷| 欧美一区久久久| 美女视频黄久久| 国产精品免费不| 日韩精品久久久久久久软件91| 亚洲欧美日韩国产一区二区| 午夜久久久久| 99精品综合| 亚洲啊v在线| 精品国产精品国产偷麻豆| 国产精品任我爽爆在线播放 | 日韩精品免费观看视频| 国产精品外国| 午夜久久美女| 欧美久久精品一级c片| 成人精品天堂一区二区三区| 国产高清不卡| 国产在线观看www| 成人午夜在线| 国产一区福利| 成人国产精品久久| 久久精品一区二区国产| 国产精品亚洲欧美一级在线| 91欧美极品| 日韩高清不卡一区| 日韩精品a在线观看91| 日韩精品三级| 日韩欧美美女在线观看| 日韩亚洲精品在线观看| 日韩高清国产一区在线| 国产欧美亚洲精品a| 国产精品久久久一区二区| 国产精品日本一区二区不卡视频 | 国产精品原创| 欧美sm一区| 欧美 日韩 国产精品免费观看| 日本不卡免费高清视频在线| 亚洲va中文在线播放免费| 久久精品观看| 欧美在线资源| 亚洲丝袜啪啪| 国产日产精品_国产精品毛片 | 美女免费视频一区| 成人台湾亚洲精品一区二区| 亚洲精品**中文毛片| 成人久久一区| 1024精品久久久久久久久| 亚洲自拍另类| 日韩欧美四区| 美腿丝袜亚洲三区| 在线观看精品| 国产精品丝袜xxxxxxx| 日韩精品久久久久久久软件91| 国产乱码精品| 国产在线不卡一区二区三区| 日韩网站中文字幕| 亚洲专区欧美专区| 偷拍亚洲精品| 国产精品17p| 日韩欧美中文| 欧美在线综合| 国产欧美日韩精品一区二区免费| 精品国产欧美日韩| 欧美亚洲国产激情| 亚洲毛片在线免费| 国产精品观看| 色88888久久久久久影院| 欧美日韩国产在线观看网站 | 老鸭窝一区二区久久精品| 欧美精品日日操| 亚洲激情久久| 日韩精品亚洲专区| 国产不卡人人| 国产精品日本| 日韩不卡一二三区| 精品一区91| 黑丝美女一区二区| 日韩免费精品| 国产精品久久久久久久久妇女| 美女少妇全过程你懂的久久| 日韩一区中文| av中文字幕在线观看第一页| 国产模特精品视频久久久久| 日韩中文字幕在线一区| 国产一区二区视频在线看| 午夜久久免费观看| 久久国产精品免费一区二区三区| 欧美sss在线视频| 蜜臀a∨国产成人精品| 欧美交a欧美精品喷水| 精品91久久久久| 91欧美极品| 91精品国产乱码久久久久久久 | 1024精品久久久久久久久| 日本天堂一区| 久久国产电影| 91精品一区| 一区二区三区四区日本视频| 日本大胆欧美人术艺术动态| 久久99高清| 麻豆9191精品国产| 韩国一区二区三区视频| 中文字幕日韩高清在线 | 亚洲一区激情| 国产66精品|