日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

Python實(shí)現(xiàn)8種常用抽樣方法

瀏覽:173日期:2022-06-15 16:47:55
目錄概率抽樣技術(shù)1.隨機(jī)抽樣(Random Sampling)2.分層抽樣(Stratified Sampling)3.聚類抽樣(Cluster Sampling)4.系統(tǒng)抽樣(Systematic Sampling)5.多級(jí)采樣(Multistage sampling)非概率抽樣技術(shù)1.簡(jiǎn)單采樣(convenience sampling)2.自愿抽樣(Voluntary Sampling)3.雪球抽樣(Snowball Sampling)總結(jié)

今天來和大家聊聊抽樣的幾種常用方法,以及在Python中是如何實(shí)現(xiàn)的。

抽樣是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)中非常重要,也是經(jīng)常用到的方法,因?yàn)榇蠖鄷r(shí)候使用全量數(shù)據(jù)是不現(xiàn)實(shí)的,或者根本無法取到。所以我們需要抽樣,比如在推斷性統(tǒng)計(jì)中,我們會(huì)經(jīng)常通過采樣的樣本數(shù)據(jù)來推斷估計(jì)總體的樣本。

上面所說的都是以概率為基礎(chǔ)的,實(shí)際上還有一類非概率的抽樣方法,因此總體上歸納為兩大種類:

概率抽樣:根據(jù)概率理論選擇樣本,每個(gè)樣本有相同的概率被選中。

非概率抽樣:根據(jù)非隨機(jī)的標(biāo)準(zhǔn)選擇樣本,并不是每個(gè)樣本都有機(jī)會(huì)被選中。

概率抽樣技術(shù)1.隨機(jī)抽樣(Random Sampling)

這也是最簡(jiǎn)單暴力的一種抽樣了,就是直接隨機(jī)抽取,不考慮任何因素,完全看概率。并且在隨機(jī)抽樣下,總體中的每條樣本被選中的概率相等。

Python實(shí)現(xiàn)8種常用抽樣方法

比如,現(xiàn)有10000條樣本,且各自有序號(hào)對(duì)應(yīng)的,假如抽樣數(shù)量為1000,那我就直接從1-10000的數(shù)字中隨機(jī)抽取1000個(gè),被選中序號(hào)所對(duì)應(yīng)的樣本就被選出來了。

在Python中,我們可以用random函數(shù)隨機(jī)生成數(shù)字。下面就是從100個(gè)人中隨機(jī)選出5個(gè)。

import randompopulation = 100data = range(population)print(random.sample(data,5))> 4, 19, 82, 45, 412.分層抽樣(Stratified Sampling)

分層抽樣其實(shí)也是隨機(jī)抽取,不過要加上一個(gè)前提條件了。在分層抽樣下,會(huì)根據(jù)一些共同屬性將帶抽樣樣本分組,然后從這些分組中單獨(dú)再隨機(jī)抽樣。

Python實(shí)現(xiàn)8種常用抽樣方法

因此,可以說分層抽樣是更精細(xì)化的隨機(jī)抽樣,它要保持與總體群體中相同的比例。 比如,機(jī)器學(xué)習(xí)分類標(biāo)簽中的類標(biāo)簽0和1,比例為3:7,為保持原有比例,那就可以分層抽樣,按照每個(gè)分組單獨(dú)隨機(jī)抽樣。

Python中我們通過train_test_split設(shè)置stratify參數(shù)即可完成分層操作。

from sklearn.model_selection import train_test_splitstratified_sample, _ = train_test_split(population, test_size=0.9, stratify=population[[’label’]])print (stratified_sample)3.聚類抽樣(Cluster Sampling)

聚類抽樣,也叫整群抽樣。它的意思是,先將整個(gè)總體劃分為多個(gè)子群體,這些子群體中的每一個(gè)都具有與總體相似的特征。也就是說它不對(duì)個(gè)體進(jìn)行抽樣,而是隨機(jī)選擇整個(gè)子群體。

Python實(shí)現(xiàn)8種常用抽樣方法

用Python可以先給聚類的群體分配聚類ID,然后隨機(jī)抽取兩個(gè)子群體,再找到相對(duì)應(yīng)的樣本值即可,如下。

import numpy as npclusters=5pop_size = 100sample_clusters=2# 間隔為 20, 從 1 到 5 依次分配集群100個(gè)樣本的聚類 ID,這一步已經(jīng)假設(shè)聚類完成cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)# 隨機(jī)選出兩個(gè)聚類的 IDcluster_to_select = random.sample(set(cluster_ids), sample_clusters)# 提取聚類 ID 對(duì)應(yīng)的樣本indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]# 提取樣本序號(hào)對(duì)應(yīng)的樣本值cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]print (cluster_associated_elements)4.系統(tǒng)抽樣(Systematic Sampling)

系統(tǒng)抽樣是以預(yù)定的規(guī)則間隔(基本上是固定的和周期性的間隔)從總體中抽樣。比如,每 9 個(gè)元素抽取一下。一般來說,這種抽樣方法往往比普通隨機(jī)抽樣方法更有效。

下圖是按順序?qū)γ?9 個(gè)元素進(jìn)行一次采樣,然后重復(fù)下去。

Python實(shí)現(xiàn)8種常用抽樣方法

用Python實(shí)現(xiàn)的話可以直接在循環(huán)體中設(shè)置step即可。

population = 100step = 5sample = [element for element in range(1, population, step)]print (sample)5.多級(jí)采樣(Multistage sampling)

在多階段采樣下,我們將多個(gè)采樣方法一個(gè)接一個(gè)地連接在一起。比如,在第一階段,可以使用聚類抽樣從總體中選擇集群,然后第二階段再進(jìn)行隨機(jī)抽樣,從每個(gè)集群中選擇元素以形成最終集合。

Python實(shí)現(xiàn)8種常用抽樣方法

Python代碼復(fù)用了上面聚類抽樣,只是在最后一步再進(jìn)行隨機(jī)抽樣即可。

import numpy as npclusters=5pop_size = 100sample_clusters=2sample_size=5# 間隔為 20, 從 1 到 5 依次分配集群100個(gè)樣本的聚類 ID,這一步已經(jīng)假設(shè)聚類完成cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)# 隨機(jī)選出兩個(gè)聚類的 IDcluster_to_select = random.sample(set(cluster_ids), sample_clusters)# 提取聚類 ID 對(duì)應(yīng)的樣本indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]# 提取樣本序號(hào)對(duì)應(yīng)的樣本值cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]# 再從聚類樣本里隨機(jī)抽取樣本print (random.sample(cluster_associated_elements, sample_size))非概率抽樣技術(shù)

非概率抽樣,毫無疑問就是不考慮概率的方式了,很多情況下是有條件的選擇。因此,對(duì)于無隨機(jī)性我們是無法通過統(tǒng)計(jì)概率和編程來實(shí)現(xiàn)的。這里也介紹3種方法。

1.簡(jiǎn)單采樣(convenience sampling)

簡(jiǎn)單采樣,其實(shí)就是研究人員只選擇最容易參與和最有機(jī)會(huì)參與研究的個(gè)體。比如下面的圖中,藍(lán)點(diǎn)是研究人員,橙色點(diǎn)則是藍(lán)色點(diǎn)附近最容易接近的人群。

Python實(shí)現(xiàn)8種常用抽樣方法

2.自愿抽樣(Voluntary Sampling)

自愿抽樣下,感興趣的人通常通過填寫某種調(diào)查表格形式自行參與的。所以,這種情況中,調(diào)查的研究人員是沒有權(quán)利選擇任何個(gè)體的,全憑群體的自愿報(bào)名。比如下圖中藍(lán)點(diǎn)是研究人員,橙色的是自愿同意參與研究的個(gè)體。

Python實(shí)現(xiàn)8種常用抽樣方法

3.雪球抽樣(Snowball Sampling)

雪球抽樣是說,最終集合是通過其他參與者選擇的,即研究人員要求其他已知聯(lián)系人尋找愿意參與研究的人。比如下圖中藍(lán)點(diǎn)是研究人員,橙色的是已知聯(lián)系人,黃色是是橙色點(diǎn)周圍的其它聯(lián)系人。

Python實(shí)現(xiàn)8種常用抽樣方法

總結(jié)

以上就是8種常用抽樣方法,平時(shí)工作中比較常用的還是概率類抽樣方法,因?yàn)闆]有隨機(jī)性我們是無法通過統(tǒng)計(jì)學(xué)和編程完成自動(dòng)化操作的。

比如在信貸的風(fēng)控樣本設(shè)計(jì)時(shí),就需要從樣本窗口通過概率進(jìn)行抽樣。因?yàn)椴蓸拥馁|(zhì)量基本就決定了你模型的上限了,所以在抽樣時(shí)會(huì)考慮很多問題,如樣本數(shù)量、是否有顯著性、樣本穿越等等。在這時(shí),一個(gè)良好的抽樣方法是至關(guān)重要的。

到此這篇關(guān)于Python實(shí)現(xiàn)8種常用抽樣方法的文章就介紹到這了,更多相關(guān)Python 抽樣方法內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美国产极品| 国产一区日韩一区| 美日韩精品视频| 日韩一区二区久久| 国产模特精品视频久久久久| 羞羞答答国产精品www一本| 久久国产精品久久久久久电车| 日本欧美在线看| 日韩1区2区3区| 国产日韩免费| 久久香蕉网站| 国产传媒在线| 久久中文字幕二区| 亚洲国产成人精品女人| 亚洲伦乱视频| 久久精品高清| 一区二区视频欧美| 亚洲精品高潮| 国产精品久久国产愉拍| 精品国产欧美日韩一区二区三区| 日本一区二区高清不卡| 精品日韩视频| 国产美女一区| 日韩福利视频一区| 国产精品jk白丝蜜臀av小说| 久久超碰99| 日韩国产专区| 欧美在线综合| 91欧美日韩在线| 国产精品一卡| | 日韩中文字幕亚洲一区二区va在线| 视频一区二区三区在线| 欧美久久香蕉| 国产成人精品亚洲线观看| 国产字幕视频一区二区| 日精品一区二区三区| 精品一区二区三区亚洲| 免费不卡中文字幕在线| 亚洲三级网站| 麻豆成人在线观看| 亚洲欧美日韩高清在线| 亚洲一区二区三区中文字幕在线观看| 日本免费一区二区视频| 日韩成人精品一区| 9色精品在线| 国产精品一区二区精品| 欧美手机在线| 国产亚洲一区二区三区啪| 中文字幕在线免费观看视频| 女人天堂亚洲aⅴ在线观看| 日韩av资源网| 亚洲成人不卡| 日韩精品乱码av一区二区| 国产一二在线播放| 蜜臀av一区二区在线免费观看| 国产精品久久亚洲不卡| 久久网站免费观看| 免费成人在线影院| 成人在线免费观看网站| 美女黄网久久| 国产精品伦理久久久久久| 免费日韩视频| 高清在线一区| 亚洲精品在线二区| se01亚洲视频| 国产午夜精品一区在线观看| 久久久天天操| 国产精品久久久久久妇女| 亚洲欧美网站| 一本大道色婷婷在线| 日韩精品免费观看视频| 午夜国产欧美理论在线播放| 国产日产精品_国产精品毛片 | 亚洲欧美一区在线| 国产精品.xx视频.xxtv| 久久亚洲不卡| 色老板在线视频一区二区| 国产精品麻豆成人av电影艾秋| 韩日一区二区三区| 精品中文字幕一区二区三区四区| 欧美精品高清| 国产精品videossex| 六月天综合网| 欧美香蕉视频| 国产精品大片| 婷婷综合一区| 国产精品视区| 91精品精品| 欧美精品第一区| 日本伊人久久| 国产毛片久久| 久久亚洲国产| 亚洲国产福利| 国产欧美自拍| 香蕉久久久久久| 久久中文亚洲字幕| 日产精品一区二区| 美女精品一区二区| 欧美一级二级三级视频| 老司机久久99久久精品播放免费| 久久国产主播| 桃色av一区二区| 给我免费播放日韩视频| 美女高潮久久久| 国产欧美日韩亚洲一区二区三区| 美国三级日本三级久久99| 精品一区欧美| 99热精品久久| 成人三级高清视频在线看| 精品免费视频| 久久国产麻豆精品| 国产伦精品一区二区三区千人斩 | 国产精品xxx在线观看| 日韩av一区二| 日本成人在线一区| 亚洲不卡视频| 亚洲日本免费电影| 综合激情视频| 亚洲精品进入| 日本视频一区二区| 亚欧洲精品视频在线观看| 亚洲不卡视频| 国产日韩欧美三级| 久久av免费| 国产成人黄色| 日韩一区二区三区免费播放| 日韩伦理一区| 久久久国产精品一区二区中文| www.com.cn成人| 欧美日韩视频免费观看| 亚洲不卡系列| 欧美福利在线| 亚洲天堂日韩在线| 日韩精品亚洲一区二区三区免费| 日韩区一区二| 国产情侣一区在线| 国产成人a视频高清在线观看| 老牛影视精品| 99久久夜色精品国产亚洲狼| 亚洲欧洲一区| 日韩1区2区3区| 麻豆精品国产91久久久久久| 激情国产在线| 欧美日韩国产高清| 手机精品视频在线观看| 亚洲精品麻豆| 美腿丝袜在线亚洲一区| 日本不良网站在线观看| 久久国产精品成人免费观看的软件| 亚洲国产专区校园欧美| 亚洲大全视频| 亚洲资源在线| 免费在线日韩av| 亚洲第一区色| 亚洲精品韩国| 精品理论电影在线| 在线观看免费一区二区| 日韩激情中文字幕| 丰满少妇一区| 久久美女精品| 日韩一区二区三区四区五区| 麻豆国产精品| 国产高清一区二区| 奇米色欧美一区二区三区| 高清一区二区三区av| 国产一区二区三区自拍| 日韩av在线免费观看不卡| 中文av在线全新| 亚洲一级大片| 精品欧美日韩精品| 亚洲神马久久| 久久99影视| 国产精品三上| 美女视频网站久久| 一本色道久久精品| 国产精品久av福利在线观看| 国产字幕视频一区二区| 国产日韩欧美高清免费| 国产99精品一区| 日韩不卡一区二区| 天堂av在线| 亚洲tv在线| 日韩电影在线视频| 日韩av三区| 亚洲性图久久| 国产精品久久久久77777丨| 影院欧美亚洲| 精品视频一区二区三区四区五区 | 欧美男人天堂| 日本中文字幕不卡| 秋霞影视一区二区三区| 欧美一级久久| 久久国产亚洲精品| 久久福利在线| 综合激情网...| 国产综合精品一区| 老牛国内精品亚洲成av人片| 噜噜噜久久亚洲精品国产品小说| 成人三级高清视频在线看|