日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python 爬取嗶哩嗶哩up主信息和投稿視頻

瀏覽:253日期:2022-06-14 16:00:23
項(xiàng)目地址:

https://github.com/cgDeepLearn/BilibiliCrawler

項(xiàng)目特點(diǎn) 采取了一定的反反爬策略。 Bilibili更改了用戶頁(yè)面的api, 用戶抓取解析程序需要重構(gòu)??焖匍_始 拉取項(xiàng)目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git 進(jìn)入項(xiàng)目主目錄,安裝虛擬環(huán)境crawlenv(請(qǐng)參考使用說明里的虛擬環(huán)境安裝)。 激活環(huán)境并在主目錄運(yùn)行crawl,爬取結(jié)果將保存在data目錄csv文件中。

ource activate crawlenvpython initial.py file # 初始化file模式python crawl_user.py file 1 100 # file模式,1 100是開始、結(jié)束bilibili的uid

進(jìn)入data目錄查看抓取的數(shù)據(jù),是不是很簡(jiǎn)單!

如果需要使用數(shù)據(jù)庫(kù)保存和一些其他的設(shè)置,請(qǐng)看下面的使用說明

使用說明1.拉取項(xiàng)目

git clone https://github.com/cgDeepLearn/BilibiliCrawler.git2.進(jìn)入項(xiàng)目主目錄, 安裝虛擬環(huán)境 若已安裝anaconda

conda create -n crawlenv python=3.6source activate crawlenv # 激活虛擬環(huán)境pip install -r requirements.txt 若使用virtualenv

virtualenv crawlenvsource crawlenv/bin/activate # 激活虛擬環(huán)境,windows下不用sourcepip install -r requirements.txt # 安裝項(xiàng)目依賴3. 修改配置文件

進(jìn)入config目錄,修改config.ini配置文件(默認(rèn)使用的是postgresql數(shù)據(jù)庫(kù),如果你是使用的是postgresql,只需要將其中的參數(shù)替換成你的,下面其他的步驟可以忽略) 數(shù)據(jù)庫(kù)配置選擇其中一個(gè)你本地安裝的即可,將參數(shù)更換成你的 如果你需要更自動(dòng)化的數(shù)據(jù)庫(kù)配置,請(qǐng)移步我的DB_ORM項(xiàng)目

[db_mysql]user = testpassword = testhost = localhostport = 3306dbname = testdb[db_postgresql]user = testpassword = testhost = localhostport = 5432dbname = testdb

然后修改conf.py中獲取配置文件的函數(shù)

def get_db_args(): ''' 獲取數(shù)據(jù)庫(kù)配置信息 ''' return dict(CONFIG.items(’db_postgresql’)) # 如果安裝的是mysql,請(qǐng)將參數(shù)替換為db_mysql

進(jìn)入db目錄,修改basic.py的連接數(shù)據(jù)庫(kù)的DSN

# connect_str = 'postgresql+psycopg2://{}:{}@{}:{}/{}'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# 若使用的是mysql,請(qǐng)將上面的connect_str替換成下面的connect_str = 'mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# sqlite3,mongo等請(qǐng)移步我的DB_ORM項(xiàng)目,其他一些數(shù)據(jù)庫(kù)也將添加支持4. 運(yùn)行爬蟲 在主目錄激活虛擬環(huán)境, 初次運(yùn)行請(qǐng)執(zhí)行

python initial.py db # db模式,file模式請(qǐng)將db換成file# file模式會(huì)將抓取結(jié)果保存在data目錄# db模式會(huì)將數(shù)據(jù)保存在設(shè)置好的數(shù)據(jù)庫(kù)中# 若再次以db模式運(yùn)行將會(huì)drop所有表后再create,初次運(yùn)行后請(qǐng)慎重再次使用!!!# 如果修改添加了表,并不想清空數(shù)據(jù),請(qǐng)運(yùn)行 python create_all.py 開始抓取示例

python crawl_user.py db 1 10000 # crawl_user 抓取用戶數(shù)據(jù),db 保存在數(shù)據(jù)庫(kù)中, 1 10000為抓取起止idpython crawl_video_ajax.py db 1 100 # crawl_video_ajax 抓取視頻ajax信息保存到數(shù)據(jù)庫(kù)中,python crawl_user_video.py db 1 10000 #同時(shí)抓取user 和videoinfo# 示例為uid從1到100的user如果有投稿視頻則抓取其投稿視頻的信息,# 若想通過視頻id逐個(gè)抓取請(qǐng)運(yùn)行python crawl_video_by_aid.py db 1 1000 爬取速率控制

程序內(nèi)已進(jìn)行了一些抓取速率的設(shè)置,但各機(jī)器cpu、mem不同抓取速率也不同,請(qǐng)酌情修改太快太慢請(qǐng)修改各crawl中的sleepsec參數(shù),ip會(huì)被限制訪問頻率,overspeed會(huì)導(dǎo)致爬取數(shù)據(jù)不全,之后會(huì)添加運(yùn)行參數(shù)speed(high, low),不用再手動(dòng)配置速率

日志

爬取日志在logs目錄user, video分別為用戶和視頻的爬取日志storage為數(shù)據(jù)庫(kù)日志 如需更換log格式,請(qǐng)修改logger模塊

后臺(tái)運(yùn)行

linux下運(yùn)行python ......前面加上nohup,例如:

nohup python crawl_user db 1 10000

程序輸出保存文件,默認(rèn)會(huì)包存在主目錄額nohup.out文件中,添加 > fielname就會(huì)保存在設(shè)置的文件中:

nohup python crawl_video_ajax.py db 1 1000 > video_ajaxup_1_1000.out # 輸出將保存在video_ajaxup_1_1000.out中 更多

程序多線程使用的生產(chǎn)者消費(fèi)者模式中產(chǎn)生了程序運(yùn)行的狀況的打印信息,類似如下

produce 1_1consumed 1_1...

如想運(yùn)行更快,請(qǐng)?jiān)诔绦蚋黜?xiàng)設(shè)置好后注釋掉其中的打印程序

# utils/pcModels.pyprint(’[+] produce %s_%s’ % (index, pitem)) # 請(qǐng)注釋掉print(’[-] consumed %s_%sn’ % (index, data)) # 請(qǐng)注釋掉更多

項(xiàng)目是單機(jī)多線程,若想使用分布式爬取,請(qǐng)參考Crawler-Celery

以上就是python 爬取嗶哩嗶哩up主信息和投稿視頻的詳細(xì)內(nèi)容,更多關(guān)于python 爬取嗶哩嗶哩的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: python 嗶哩嗶哩
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
91精品电影| 欧美国产中文高清| 成人午夜毛片| 国产成人精选| 国产日韩一区二区三区在线播放| 亚洲一区av| 亚洲免费成人av在线| 日韩精品高清不卡| 欧美另类中文字幕| 欧美激情一区| 水蜜桃久久夜色精品一区| 国产精品久久国产愉拍| 国产人成精品一区二区三| 欧美日韩a区| 欧美精品91| 日韩欧美一区二区三区在线视频 | 亚洲最新av| 日韩欧美中文字幕电影| 国产精品色在线网站| 久久精品国产在热久久| 精品日韩视频| 久久亚洲色图| 免费观看久久久4p| 日韩高清成人在线| 麻豆一区二区三区| 黑人精品一区| 欧美日韩国产免费观看视频| 日韩精品一卡二卡三卡四卡无卡| 日本成人中文字幕在线视频| 国产美女久久| 日韩在线观看不卡| 美国三级日本三级久久99 | 麻豆一区二区三区| 香蕉成人av| 亚洲一区二区三区四区五区午夜| 日韩精品视频在线看| 麻豆成人av在线| 久久中文字幕av| 日韩精品一级二级| 嫩草伊人久久精品少妇av杨幂| 亚洲成av在线| 亚洲综合专区| 麻豆传媒一区二区三区| 成人在线观看免费视频| 亚洲尤物av| 99久久视频| 午夜在线视频一区二区区别| 国产欧美一区二区三区国产幕精品| 国产麻豆一区二区三区精品视频| 国内精品伊人| 噜噜噜久久亚洲精品国产品小说| 亚洲精品一二| 日韩精品不卡一区二区| 午夜在线视频观看日韩17c| 久久精品资源| 亚洲激精日韩激精欧美精品| 国产精品sm| 国产一区二区高清| 久久精品人人| 亚洲久久视频| 风间由美中文字幕在线看视频国产欧美| 女人天堂亚洲aⅴ在线观看| 国产亚洲精aa在线看| 午夜日韩av| 欧美成a人片免费观看久久五月天| 日韩视频精品在线观看| 麻豆精品视频在线观看| 免费在线看一区| 日韩国产欧美一区二区| 日本a口亚洲| 亚洲激情国产| 国产不卡一区| 欧美天堂在线| 红桃视频亚洲| 在线一区av| 欧美日韩中出| 视频一区视频二区在线观看| 精品国产麻豆| 日韩精品导航| 蜜臀91精品国产高清在线观看| 国产精品xxx在线观看| 亚洲免费精品| 久久天堂成人| 精品成av人一区二区三区| 日韩欧美另类中文字幕| 午夜久久黄色| 午夜精品成人av| 久久精品一区| 日韩久久99| 国产亚洲一级| 日韩精品不卡一区二区| 国产精品17p| 亚洲精品激情| 天堂成人免费av电影一区| 亚洲国产专区校园欧美| 手机在线电影一区| 日韩**一区毛片| 免费观看久久久4p| 免费日韩av片| 黄色亚洲大片免费在线观看| 亚洲风情在线资源| 国产精品高颜值在线观看| 国产欧美69| 国产精品亚洲综合色区韩国| 日韩精品导航| 婷婷亚洲成人| 蜜臀精品一区二区三区在线观看| 精品欧美久久| 成人久久一区| 久久精品官网| 99久精品视频在线观看视频| 日本少妇一区| 四虎4545www国产精品 | 欧美日韩国产一区二区三区不卡 | 综合亚洲自拍| 蜜桃视频免费观看一区| 日本大胆欧美人术艺术动态| 国产精品日韩久久久| 亚洲二区精品| 999精品色在线播放| 伊人久久视频| 亚洲成人va| 久久蜜桃资源一区二区老牛| 日韩精品免费一区二区三区| 欧美香蕉视频| 正在播放日韩精品| 久久九九精品| 久久影院一区| 樱桃成人精品视频在线播放| 在线综合亚洲| 男人的天堂久久精品| 亚洲在线一区| 日韩一区网站| 国产欧美88| 成人亚洲一区| 中文在线а√在线8| 在线成人动漫av| 99国产精品久久久久久久| 丝袜美腿亚洲一区二区图片| 亚洲我射av| 日韩精品1区2区3区| 18国产精品| 国产精品任我爽爆在线播放| 国产精品久久久久久久久久妞妞 | 精品捆绑调教一区二区三区 | 亚洲精品第一| 欧美日韩在线精品一区二区三区激情综合 | 国产精品久久久久久久久免费高清| 日韩高清在线不卡| 国产精品高潮呻吟久久久久| 欧美精品成人| 国产亚洲一区二区手机在线观看| 亚洲激情社区| 国产欧美啪啪| 日本а中文在线天堂| 精品在线91| 亚洲18在线| 久久av国产紧身裤| 91精品啪在线观看国产18| 夜夜嗨网站十八久久 | 久久精品xxxxx| 国产专区精品| 日韩一级不卡| 国产欧美自拍一区| 日韩一区电影| 午夜视频精品| 国产精品一卡| 久久久久美女| 亚洲区欧美区| 久久久久久久久成人| 欧美一区二区三区高清视频 | 亚洲精品伊人| 国产日韩1区| 精品国产午夜肉伦伦影院| 欧美日韩水蜜桃| 日韩在线电影| 国产一区调教| 国产亚洲在线| 国产一区福利| 亚洲我射av| 91av亚洲| 亚州欧美在线| 欧美天堂视频| 日韩不卡一区二区| 999久久久国产精品| 日韩av成人高清| 欧美手机在线| 国产精久久久| 麻豆成人在线观看| 亚洲自啪免费| 亚洲一区二区免费看| 国产欧美日韩综合一区在线播放| 日本久久成人网| 精品久久一区| 97成人超碰| 欧美日一区二区三区在线观看国产免| 国产资源在线观看入口av| 亚洲图片久久| 免费在线小视频| 国产精品欧美一区二区三区不卡|