日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python 開心網(wǎng)和豆瓣日記爬取的小爬蟲

瀏覽:290日期:2022-06-14 16:53:22
目錄項目地址:開心網(wǎng)日記爬取使用代碼豆瓣日記爬取使用代碼Roadmap項目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請先安裝。

pip install beautifulsoup4開心網(wǎng)日記爬取

kaixin001.py

使用

登錄開心網(wǎng),瀏覽器F12看http請求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數(shù)。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import time # 防止被殺cookieimport unicodedata # 字符修正# 在這里放第一個鏈接urlx = ’鏈接’ #寫你想爬的文def request(url): global urlx #引用外面的鏈接作為全局變量,后面還會取下一個進(jìn)行循環(huán)的# 使用urllib庫提交cookie獲取http響應(yīng) headers = { ’GET https’:url, ’Host’:’ www.kaixin001.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:’ ’, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header } request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時間和博客正文 title = bsObj.find('b', attrs={'class':'f14'}) titleT = bsObj.find('b', attrs={'class':'f14'}).get_text() #開心網(wǎng)日記的標(biāo)題是一個b標(biāo)簽,class屬性值是f14 date = bsObj.find('span', attrs={'class':'c6'}) dateT = bsObj.find('span', attrs={'class':'c6'}).get_text() #開心網(wǎng)日記的發(fā)表時間是一個span標(biāo)簽,class屬性值是c6 text = bsObj.find('div', attrs={'class':'textCont'}) textT = bsObj.find('div', attrs={'class':'textCont'}).get_text() #開心網(wǎng)日記的正文是一個div標(biāo)簽,class屬性值是textCont # 測試輸出 print(title) print(dateT) # print(text) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation table = str.maketrans(’:’,’:’,remove) fileTitle=str(titleT).replace(’:’,’:’).replace(’’’'’’’,’’’“’’’)+’-’+str(dateT).translate(table).replace(’發(fā)表’,’’)+’.html’ print(fileTitle) #測試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。# 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title.get_text(),date.get_text(),unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close() # webbrowser.open(fileTitle,new = 1) # 定位下一篇博文的URL nextUrl=bsObj.find('a',text='下一篇 >').attrs['href'] #下一篇是一個a標(biāo)簽,使用tag對象的attrs屬性取href屬性的值。開心網(wǎng)的日記系統(tǒng)里,如果到了最后一篇日記,下一篇的鏈接內(nèi)容是第一篇日記,所以不用擔(dān)心從哪篇日記開始爬。 # print(nextUrl) urlx='http://www.kaixin001.com'+nextUrl print(urlx)# 主循環(huán),給爺爬num=328 #設(shè)定要爬多少次。其實也可以寫個數(shù)組檢測重復(fù)然后中止的啦,但我懶得弄了。for a in range(num): request(urlx)print(’We get ’+str(a+1)+’ in ’+str(num)) time.sleep(1) # 慢點,慢點。測試過程中出現(xiàn)了沒有設(shè)置限制爬一半cookie失效了的情況,可能是太快了被搞了。豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁的url。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import unicodedata # 字符修正import re# 在這里放鏈接url = ’’ #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣COOKIE = ’’def request(urlx): global url #引用外面的鏈接作為全局變量,后面還會取下一個進(jìn)行循環(huán)的 global boolean global COOKIE# 使用urllib庫提交cookie獲取http響應(yīng) headers = { ’GET https’:urlx, ’Host’:’ www.douban.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header } request = urllib.request.Request(url=urlx,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)獲取當(dāng)前頁面的所有日記鏈接 article = bsObj.find('div', attrs={'class':'article'}) titleSet = article.findAll('h3') # print(titleSet) for title in titleSet:titleText = title.findAll('a',attrs={'class':'j a_unfolder_n'})for link in titleText: noteUrl = str(link.attrs['href']) print(noteUrl) requestSinglePage(noteUrl) next = bsObj.find('a',text='后頁>') if next==None:print('結(jié)束了')boolean=1 else:url = str(next.attrs['href']).replace('&type=note','')print(url)def requestSinglePage(urly): global COOKIE headers = {’GET https’:urly,’Host’:’ www.douban.com’,’Connection’:’ keep-alive’,’Upgrade-Insecure-Requests’:’ 1’,’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’,’Accept’:’ application/json, text/javascript, */*; q=0.01’,’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’,’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header } request = urllib.request.Request(url=urly,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時間和博客正文 title = bsObj.find('h1').get_text() date = bsObj.find('span', attrs={'class':'pub-date'}) dateT = bsObj.find('span', attrs={'class':'pub-date'}).get_text() text = bsObj.find('div', attrs={'id':'link-report'}) # textT = bsObj.find('div', attrs={'class':'textCont'}).get_text()# 測試輸出 print(title) print(dateT) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation # 去掉日期的標(biāo)點符號 table = str.maketrans(’:’,’:’,remove) fileTitle=str(title)+’-’+str(dateT).translate(table)+’.html’ print(fileTitle) #測試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。 # 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title,dateT,unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close()# 主循環(huán),給爺爬boolean=0while(boolean==0): a=1 request(url) print(’We finished page ’+str(a)+’ .’) a+=1Roadmap

豆瓣四月份時候還有bug,手機(jī)端可以看到全部日記,半年隱藏?zé)o效。最近修好了。

不過現(xiàn)在的隱藏依然沒有針對到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網(wǎng)日記爬取的示例步驟的詳細(xì)內(nèi)容,更多關(guān)于python 開心網(wǎng)日記爬取的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: 豆瓣 Python 編程語言
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产传媒在线观看| 日本美女一区| 免费日韩av片| 亚洲成人日韩| 不卡一区综合视频| 久久视频一区| 欧美粗暴jizz性欧美20| 99成人在线| 亚洲黄色在线| 视频一区国产视频| 亚洲欧美在线综合| 日韩精品视频在线看| 日韩精品电影一区亚洲| 天堂va蜜桃一区二区三区| 中文字幕日韩亚洲| 国产欧美高清| 国产成人精品免费视| 日本精品影院| 亚洲欧美日韩国产| 欧美中文一区| 国产一区二区三区不卡av| 久久久久久久久久久妇女| 尤物在线精品| 日本一区二区三区视频在线看| 欧美日韩国产一区二区在线观看| 久久99性xxx老妇胖精品| 日韩免费一区| 男人天堂欧美日韩| 日韩高清中文字幕一区| 久久精品一区| 欧美一级精品| 日韩综合小视频| 麻豆久久一区| 今天的高清视频免费播放成人| 在线一区二区三区视频| 国产极品嫩模在线观看91精品| 欧美亚洲日本精品| 三级亚洲高清视频| 久久免费影院| 国产亚洲亚洲| 国产精品一级| 天堂资源在线亚洲| 日韩一区精品| 国产一区二区三区探花| 91国语精品自产拍| 国产乱子精品一区二区在线观看| 91一区二区三区四区| 日韩一区二区久久| 美女精品久久| 在线视频亚洲| 福利一区二区免费视频| 国产精品美女| 你懂的国产精品永久在线| 国产主播一区| 国产亚洲高清在线观看| 极品日韩av| 欧美国产另类| 在线精品小视频| 国产精品一区高清| 欧美国产91| 国产精品亚洲综合久久| 91精品电影| 精品精品国产三级a∨在线| 亚洲在线国产日韩欧美| 精品国产亚洲日本| 综合亚洲色图| 999久久久国产精品| 国产精品一区二区三区www| 日韩午夜黄色| 在线中文字幕播放| 国产精品综合| 综合一区二区三区| 1024精品一区二区三区| 国产精品久久久久久模特| 91精品观看| 国产精品99视频| 日韩一区网站| 欧美综合国产| 久久蜜桃精品| 国产一区二区三区亚洲| 日韩高清不卡在线| 夜夜嗨一区二区| 亚洲www啪成人一区二区| 欧美xxxx性| 日本成人中文字幕| 奶水喷射视频一区| 蜜桃国内精品久久久久软件9| 久久精品女人| 亚洲不卡视频| 亚洲一级网站| 国产日韩电影| 免费一级欧美片在线观看网站| 中文字幕一区二区三区四区久久 | 一区二区三区四区日韩| 99视频精品全国免费| 精品一区二区三区在线观看视频| 日韩激情精品| 一二三区精品| 亚洲黄色在线| 欧美日韩色图| 中文在线资源| 精品久久国产一区| 国产欧美日韩一区二区三区在线| 亚洲精品无播放器在线播放| 日韩视频在线一区二区三区| 日韩av首页| 国产在线不卡一区二区三区| 国产精品高潮呻吟久久久久| 亚洲欧洲美洲国产香蕉| 日韩在线一区二区| 在线亚洲观看| 午夜一区在线| 老鸭窝亚洲一区二区三区| 欧美精品黄色| 伊人久久婷婷| 在线一区电影| 欧美日韩国产欧| 一区在线免费观看| 亚洲资源av| 亚洲欧美激情诱惑| 国产毛片一区| 免费成人在线影院| 中文一区一区三区免费在线观| 久久大逼视频| 亚洲一区二区免费在线观看| 日韩一区精品| 国产精品久久777777毛茸茸| 免费精品一区| 福利片在线一区二区| 91综合网人人| 亚洲精品在线影院| 自由日本语亚洲人高潮| 在线亚洲自拍| 亚洲精品视频一二三区| 日韩av一二三| 国产精品久久久久久久久久齐齐 | 一区在线免费观看| 久久亚洲图片| 日本午夜精品视频在线观看| 国产情侣一区在线| 国产另类在线| 久久青青视频| 黄色欧美日韩| 日韩欧美高清一区二区三区| 日本欧美韩国一区三区| 免费日韩一区二区三区| 国产suv精品一区二区四区视频 | 九九在线精品| 视频一区二区三区在线| 国产三级精品三级在线观看国产| 国产极品模特精品一二| 国内一区二区三区| 亚洲爱爱视频| 久久午夜精品一区二区| 欧美亚洲国产日韩| 日本一区二区免费高清| 亚洲国产综合在线看不卡| 亚洲欧美日韩在线观看a三区| 亚洲综合婷婷| 久久精品亚洲| 亚洲小说欧美另类婷婷| 视频在线在亚洲| 欧美在线首页| 欧美日韩视频免费观看| 在线观看视频免费一区二区三区| 日本精品另类| av最新在线| 亚洲一区国产一区| 国产精品久久久久久模特 | 久久中文字幕av| 亚洲精品字幕| 精品久久久久中文字幕小说| 午夜久久久久| 国产精品一国产精品k频道56| 成人日韩在线观看| 日韩精品中文字幕一区二区| 精品午夜久久| 国产农村妇女精品一二区| 国产精品久久久久久模特| 欧美 日韩 国产精品免费观看| 日韩精品三区四区| 欧美日韩在线观看视频小说| 欧美日韩在线精品一区二区三区激情综合| av资源中文在线| 日韩专区视频网站| 日韩一区电影| 日韩精品91亚洲二区在线观看| 欧美片第1页| 日韩在线黄色| 欧美成人基地 | 国产精品调教视频| 日韩精品水蜜桃| 日本亚洲视频在线| 色爱综合av| 国产精品视频一区视频二区| 不卡中文字幕| 水蜜桃久久夜色精品一区| 亚洲午夜久久| 91精品国产自产在线观看永久∴ | 欧美日韩免费看片|