日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python爬蟲爬取、解析數據操作示例

瀏覽:68日期:2022-07-31 18:47:09

本文實例講述了Python爬蟲爬取、解析數據操作。分享給大家供大家參考,具體如下:

爬蟲 當當網 http://search.dangdang.com/?key=python&act=input&page_index=1

獲取書籍相關信息 面向對象思想 利用不同解析方式和存儲方式

引用相關庫

import requestsimport reimport csvimport pymysqlfrom bs4 import BeautifulSoupfrom lxml import etreeimport lxmlfrom lxml import html

類代碼實現部分

class DDSpider(object): #對象屬性 參數 關鍵字 頁數 def __init__(self,key=’python’,page=1): self.url = ’http://search.dangdang.com/?key=’+key+’&act=input&page_index={}’ self.page = page self.headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36’} #私有對象方法 def __my_url(self): my_url = [] if self.page < 1: my_page = 2 else: my_page = self.page+1 #循環遍歷每一頁 for i in range(1,my_page): my_url.append(self.url.format(i)) return my_url #私有對象方法 請求數據 def __my_request(self,url,parser_type): #循環遍歷每一頁 response = requests.get(url=url,headers=self.headers) if response.status_code == 200: return self.__my_parser(response.text,parser_type) else: return None #私有對象方法 解析數據 1 利用正則 2 bs4 3 xpath def __my_parser(self,html,my_type=1): if my_type == 1: pattern = re.compile(’<p.*?class=[’']name[’'].*?name=[’']title[’'].*?<a.*?title=[’'](.*?)[’'].*?href=[’'](.*?)[’'].*?name=[’']itemlist-title[’'].*?<p class=[’']detail[’'].*?>(.*?)</p>.*?<span.*?class=[’']search_now_price[’'].*?>(.*?)</span>.*?<p.*?class=[’']search_book_author[’'].*?><span>.*?<a.*?name=[’']itemlist-author[’'].*?title=[’'](.*?)[’'].*?</span>’,re.S) result = re.findall(pattern,html) elif my_type == 2: soup = BeautifulSoup(html,’lxml’) result = [] title_url = soup.find_all(’a’,attrs={’name’:’itemlist-title’}) for i in range(0,len(title_url)):title = soup.find_all(’a’,attrs={’name’:’itemlist-title’})[i].attrs[’title’]url = soup.find_all(’a’,attrs={’name’:’itemlist-title’})[i].attrs[’href’]price = soup.find_all(’span’,attrs={’class’:’search_now_price’})[i].get_text()author = soup.find_all(’a’,attrs={’name’:’itemlist-author’})[i].attrs[’title’]desc = soup.find_all(’p’,attrs={’class’:’detail’})[i].get_text()my_tuple = (title,url,desc,price,author)result.append(my_tuple) else: html = etree.HTML(html) li_all = html.xpath(’//div[@id='search_nature_rg']/ul/li’) result = [] for i in range(len(li_all)):title = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='name']/a/@title’.format(i+1))url = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='name']/a/@href’.format(i+1))price = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]//span[@class='search_now_price']/text()’.format(i+1))author_num = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='search_book_author']/span[1]/a’.format(i+1))if len(author_num) != 0: #有作者 a標簽 author = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='search_book_author']/span[1]/a[1]/@title’.format(i+1))else: #沒有作者 a標簽 author = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='search_book_author']/span[1]/text()’.format(i+1))desc = html.xpath(’//div[@id='search_nature_rg']/ul/li[{}]/p[@class='detail']/text()’.format(i+1))my_tuple = (' '.join(title),' '.join(url),' '.join(desc),' '.join(price),' '.join(author))result.append(my_tuple) return result #私有對象方法 存儲數據 1 txt 2 csv 3 mysql def __my_save(self,data,save_type=1): #循環遍歷 for value in data: if save_type == 1:with open(’ddw.txt’,’a+’,encoding='utf-8') as f: f.write(’【名稱】:{}【作者】:{}【價格】:{}【簡介】:{}【鏈接】:{}’.format(value[0],value[4],value[3],value[2],value[1])) elif save_type == 2:with open(’ddw.csv’,’a+’,newline=’’,encoding=’utf-8-sig’) as f: writer = csv.writer(f) #轉化為列表 存儲 writer.writerow(list(value)) else:conn = pymysql.connect(host=’127.0.0.1’,user=’root’,passwd=’’,db=’’,port=3306,charset=’utf8’)cursor = conn.cursor()sql = ’’cursor.execute(sql)conn.commit()cursor.close()conn.close() #公有對象方法 執行所有爬蟲操作 def my_run(self,parser_type=1,save_type=1): my_url = self.__my_url() for value in my_url: result = self.__my_request(value,parser_type) self.__my_save(result,save_type)

調用爬蟲類實現數據獲取

if __name__ == ’__main__’: #實例化創建對象 dd = DDSpider(’python’,0) #參數 解析方式 my_run(parser_type,save_type) # parser_type 1 利用正則 2 bs4 3 xpath #存儲方式 save_type 1 txt 2 csv 3 mysql dd.my_run(2,1)

==總結一下: ==

1. 總體感覺正則表達式更簡便一些 , 代碼也會更簡便 , 但是正則部分相對復雜和困難2. bs4和xpath 需要對html代碼有一定了解 , 取每條數據多個值時相對較繁瑣

更多關于Python相關內容可查看本站專題:《Python Socket編程技巧總結》、《Python正則表達式用法總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設計有所幫助。

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
麻豆传媒一区二区三区| 精品午夜久久| 欧美男人天堂| 精品日韩视频| 亚洲少妇诱惑| 美女黄网久久| 日产欧产美韩系列久久99| 日韩国产欧美三级| 国产精品久久久久毛片大屁完整版| 久久99久久人婷婷精品综合| 黄色aa久久| 久久婷婷激情| 91九色精品国产一区二区| 美国三级日本三级久久99| 69堂精品视频在线播放| 97精品中文字幕| 不卡中文一二三区| 日韩av一区二区三区四区| 精品久久不卡| 国产亚洲午夜| 国产精品尤物| 久久精品av| 免费在线欧美视频| 国产精品magnet| 久久国产中文字幕| 日韩精选在线| 精品亚洲自拍| 亚洲大全视频| 日韩av网站免费在线| 国产精品成人a在线观看| 91精品福利| 国产精品久久久久久久久久久久久久久| 国产91欧美| 日韩中文欧美在线| 精品国产一区二区三区性色av| 午夜精品一区二区三区国产| 欧美在线91| 久久亚洲国产| 久久国产视频网| 久久精品成人| 国产精品黄网站| 中文精品在线| 精品少妇av| 亚洲女人av| 日韩免费高清| 日韩精品亚洲aⅴ在线影院| 亚洲成人不卡| 欧美国产免费| 亚洲精品欧美| 激情视频一区二区三区| 国产精品.xx视频.xxtv| 亚洲少妇在线| 国产在线看片免费视频在线观看| 亚洲免费福利一区| 欧美成人精品| 精品精品国产三级a∨在线| 在线免费观看亚洲| 欧洲亚洲一区二区三区| 国产精品国码视频| 日韩中文字幕| 午夜欧美精品| 日韩欧美网址| 欧美黄色精品| 日韩国产在线观看一区| 91久久中文| 久久久久.com| 狠狠久久伊人中文字幕| 日韩精品免费视频一区二区三区| 欧美日韩视频| 久久精品国产99久久| 成人在线免费观看91| 日韩高清一区在线| 欧美特黄视频| 欧美成人基地| 水蜜桃精品av一区二区| 国产欧美一区二区色老头| 亚洲精品少妇| 免费视频一区二区| 亚洲激情不卡| 日韩午夜精品| 国产视频一区三区| 亚洲免费高清| 久久亚洲风情| 99视频精品| 国产精品视区| 久久亚洲美女| 另类激情亚洲| 亚洲精品网址| 夜夜精品视频| 亚洲深夜福利| 好吊日精品视频| 欧美精品一二| 九九久久婷婷| 亚洲一区观看| 免费精品视频在线| 免费黄网站欧美| 亚洲丝袜美腿一区| 日韩激情一区二区| 国产精久久久| 国精品产品一区| 中文在线免费视频| 欧美中文字幕一区二区| 日本高清不卡一区二区三区视频| 亚洲国产福利| 亚洲一级黄色| 蜜臀av国产精品久久久久| 综合色一区二区| 18国产精品| 国产一区二区三区四区五区| 日韩中文影院| 亚洲中字黄色| 69堂免费精品视频在线播放| 欧美激情福利| 欧美成a人国产精品高清乱码在线观看片在线观看久 | 婷婷综合国产| 偷拍亚洲精品| 国产精品一区二区中文字幕| 久久91视频| av高清不卡| 欧美日韩中文一区二区| 欧美精品一卡| 日韩精品导航| 国产在线一区不卡| 亚洲二区精品| 亚洲精品精选| 美女精品久久| 999精品一区| 伊人久久大香伊蕉在人线观看热v| 久久精品99久久久| 国产资源在线观看入口av| 欧美日韩激情在线一区二区三区| 亚洲我射av| 久久免费视频66| 久久久久国产精品一区二区| 国产精品腿扒开做爽爽爽挤奶网站| 亚洲精品一级| 四季av一区二区凹凸精品| 欧美福利一区| 国产精品亚洲二区| 不卡在线一区二区| 国产精品传媒麻豆hd| 亚洲午夜一级| 69堂免费精品视频在线播放| 精品丝袜在线| 日精品一区二区三区| 国产成人免费视频网站视频社区| 2023国产精品久久久精品双| 国产亚洲欧美日韩在线观看一区二区| 97精品国产| 亚洲影院天堂中文av色| 国产91在线精品| 亚洲另类av| 欧美天堂视频| 88久久精品| 在线一区视频| а√在线中文在线新版| 日韩欧美中文在线观看| 欧美日韩国产v| 国产伦精品一区二区三区视频| 久久久久久久久99精品大| 日本中文字幕不卡| 亚洲五月婷婷| 精品一区二区三区中文字幕 | 欧美片第1页| 日本aⅴ亚洲精品中文乱码| 视频福利一区| 久久不见久久见中文字幕免费 | 久久精品女人| 日本中文字幕不卡| 婷婷综合在线| 国产suv精品一区二区四区视频 | 亚洲精品乱码| 久久久久久久久久久妇女 | 国产午夜久久av| 久久福利影视| 久久久精品五月天| 国产suv精品一区| 97se亚洲| 人人爽香蕉精品| 黄色在线一区| 国产精品99一区二区| 91亚洲国产| 久久只有精品| 国产视频一区二区在线播放| 久久亚洲欧美| 99国产精品自拍| 色爱av综合网| 蜜臀久久精品| 中文在线а√在线8| 久久久久亚洲精品中文字幕| 欧美日韩一区二区三区四区在线观看| 欧美日韩一区二区综合 | 成人高清一区| 美日韩一区二区三区| 国产午夜久久av| 欧美偷窥清纯综合图区| 日本不卡一区二区三区| 亚洲人成毛片在线播放女女| 模特精品在线| 日韩视频一区|