日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python 爬取淘寶商品信息欄目的實現

瀏覽:247日期:2022-06-28 10:42:17
一、相關知識點

1.1、Selenium

Selenium是一個強大的開源Web功能測試工具系列,可進行讀入測試套件、執行測試和記錄測試結果,模擬真實用戶操作,包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發鼠標事件等操作,并且能夠對頁面結果進行種種驗證。也就是說,只要在測試用例中把預期的用戶行為與結果都描述出來,我們就得到了一個可以自動化運行的功能測試套件。

1.2、ActionChainsActionchains是selenium里面專門處理鼠標相關的操作如:鼠標移動,鼠標按鈕操作,按鍵和上下文菜單(鼠標右鍵)交互。這對于做更復雜的動作非常有用,比如懸停和拖放。

1.3、time返回當前時間的時間戳

1.4、lxmllxml是一個Python庫,使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現成的XML解析器,但是為了獲得更好的結果,開發人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優點是易于使用,在解析大型文檔時速度非常快,歸檔的也非常好,并且提供了簡單的轉換方法來將數據轉換為Python數據類型,從而使文件操作更容易。

1.5、csvcsv文件格式是一種通用的電子表格和數據庫導入導出格式。最近我調用RPC處理服務器數據時,經常需要將數據做個存檔便使用了這一方便的格式。

1.6、requestsRequests 庫是一個優雅而簡單的 Python HTTP 庫,主要用于發送和處理 HTTP 請求

二、部分代碼解析

加載Chrome驅動,動態解析爬取的網址

#提取公共的爬取信息的api def commonsdk(self,url): browser = webdriver.Chrome(’D:/chromedriver.exe’) try: browser.get(url) except Exception as e: browser.execute_script(’window.stop()’) # 超出時間則不加載 print(e, ’dynamic web load timeout’) return browser;

實現模擬登錄

通過定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標點擊事件,繼而提交表單信息實現用戶登錄。

#模擬登錄 def logon(self,url,a_href_list_next): username = '淘寶賬戶名' password = '密碼' browser1 = self.commonsdk(url) #登錄賬號 browser1.find_element_by_id(’fm-login-id’).send_keys(username) browser1.find_element_by_id(’fm-login-password’).send_keys(password) #模擬用戶點擊登錄 browser1.find_element_by_xpath(’//*[@id='login-form']/div[4]/button’).click() #解析商品信息 self.Buy_information(a_href_list_next,browser1)

爬取側邊欄目錄1、首先定位到目錄分類欄,鼠標光標移動到需要選中的那一欄,繼而會出現隱藏的div,(這里需要實現鼠標懸停事件)action.move_to_element(li_list).perform()實現了這一功能。2、然后定位自己所需要爬取的側邊欄的那一行或多行,通過實現鼠標懸停事件后獲取其中內容。3、獲取其超鏈接進入下一界面

Python 爬取淘寶商品信息欄目的實現

#爬取目錄 def List(self,url): browser = self.commonsdk(url) #ActionChains類實現鼠標的單擊、雙擊、拖拽等功能 action = ActionChains(browser) li_list = browser.find_elements_by_css_selector(’.service-bd li’)[1] #實現執行鼠標懸停,便于爬取懸停內容 action.move_to_element(li_list).perform() time.sleep(5) #爬取整個目錄的div div_list = browser.find_element_by_css_selector(’.service-fi-links’) #爬取其中的總的名稱 h5_list = div_list.find_elements_by_css_selector(’h5’) #爬取小標題的名稱 p_list = div_list.find_elements_by_css_selector(’p’) #獲取a標簽 a_href_list = div_list.find_elements_by_css_selector(’a’) #獲取a標簽的超鏈接 a_href_list_next = div_list.find_elements_by_css_selector(’a’)[1].get_attribute(’href’) print(li_list.text) for j in range(len(p_list)): if j<len(p_list): print(h5_list[j].text) print(p_list[j].text) for i in range(len(a_href_list)): print(a_href_list[i].get_attribute(’href’)) #獲取登錄框 logon = browser.find_element_by_id(’J_SiteNavBd’) #獲取登錄框的超鏈接 logon_url = logon.find_element_by_css_selector(’a’).get_attribute(’href’) #先關閉第一個網頁 browser.close() self.logon(logon_url,a_href_list_next)

獲取商品信息

1、這里使用的定位方式是Xpath方式,使用了絕對定位來獲取標簽的位置。

#爬取商品信息 def Buy_information(self,url,browser): browser.get(url) div_list = browser.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]’) img = div_list.find_element_by_css_selector(’img’) img_url = 'https:'+img.get_attribute(’data-src’) price = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[1]/div[1]’).text number = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[1]/div[2]’).text shoping_information = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[2]’).text shop = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a’).text adress = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[3]/div[2]’).text path = self.img_baocun(img_url) data={ ’圖片路徑’:path, ’價格’:price, ’購買人數’:number, ’商品信息’:shoping_information, ’商家’:shop, ’籍貫’:adress } self.write_dictionary_to_csv(data,’information’)

下載圖片

通過獲取到的圖片的url,然后將圖片下載到指定的文件夾內

#下載照片 def img_baocun(self,url): root = '文件夾下載的路徑'//電腦上的絕對路徑 path = root + url.split(’?’)[0].split(’/’)[-1].strip(’’)#獲取jpg的名稱 #判斷是否存在該路徑,不存在則創建 if not os.path.exists(root): os.mkdir(root) #判斷是否存在該圖片,存在則不下載 if not os.path.exists(path): r = requests.get(url) r.raise_for_status() with open(path,’wb’) as f: f.write(r.content) return path

將需要爬取的信息寫入到csv文件中,便于查看1、商品信息以字典的形式寫入csv文件中方便查看。

#將解析得到的內容(字典格式)逐行寫入csv文件 def write_dictionary_to_csv(self,dict,filename): #格式化文件名 file_name=’{}.csv’.format(filename) with open(file_name, ’a’,encoding=’utf-8’) as f: file_exists = os.path.isfile(filename) #delimiter(定界符) w =csv.DictWriter(f, dict.keys(),delimiter=’,’, quotechar=’'’, lineterminator=’n’,quoting=csv.QUOTE_ALL, skipinitialspace=True) if not file_exists : w.writeheader() w.writerow(dict) print(’當前行寫入csv成功!’)三、程序思路

1、首先定位到側邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實現鼠標的動態懸停,讓隱藏的div顯示出來,再獲取其中的信息。2、然后再實現模擬登錄的功能,登錄賬號,獲取其中的商品信息(由于淘寶的反扒機制,多次登錄會讓用戶掃碼登錄,此功能暫未實現)3、商品信息的獲取使用Xpath的絕對定位方式來獲取。

Xpath的使用方式: 右鍵需要定位的標簽->選中Copy選項->Copy Xpath

四、發展空間

1、解決淘寶反扒機制的問題。傳送門,解決問題2、文件的寫入換用其他方式。

到此這篇關于Python 爬取淘寶商品信息欄目的實現的文章就介紹到這了,更多相關Python 爬取淘寶商品信息內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: 淘寶 Python
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
91精品蜜臀一区二区三区在线| 成人片免费看| 亚洲精品第一| 日韩黄色av| 国产欧美高清视频在线| 国产精区一区二区| 国产精品久久国产愉拍| 欧美黑人做爰爽爽爽| 国产91在线精品| 国产成人精品亚洲线观看| 国产高清视频一区二区| 欧洲精品一区二区三区| 91精品啪在线观看国产18| 免播放器亚洲一区| 国内一区二区三区| 久久高清一区| 美女视频免费精品| 亚洲免费网址| 日韩成人a**站| 亚洲精品欧美| 日韩国产在线| 日韩国产欧美三级| 亚洲va在线| 国产精品手机在线播放| 久久亚洲精品中文字幕蜜潮电影| 日韩激情综合| 久久精品免费一区二区三区| 日韩有码av| 欧美日韩色图| 美女av一区| 日韩制服丝袜先锋影音| 四虎国产精品免费观看| 亚洲影视一区| 日韩三区在线| 久久99久久久精品欧美| 午夜国产精品视频免费体验区| 国产精品男女| 蜜臀久久久99精品久久久久久| 蜜桃av在线播放| 欧美视频二区| 蜜桃久久av| 一本大道色婷婷在线| 亚洲精品系列| 欧美亚洲国产精品久久| 国产精品www994| 亚洲人妖在线| 国产尤物精品| 黄色在线观看www| 久久国产欧美日韩精品| 亚洲黄页一区| 成人羞羞视频播放网站| 久久99影视| 日韩精品免费视频人成| 91久久黄色| 色在线中文字幕| 国产精品久久久久9999高清| 亚洲精一区二区三区| 99精品视频精品精品视频| 美腿丝袜在线亚洲一区| 五月亚洲婷婷 | 久久九九精品| 国产精品久久久久77777丨| 免费精品视频在线| 欧美亚洲国产精品久久| 精品免费在线| 国产免费久久| 日韩av成人高清| 亚洲免费一区二区| 激情综合激情| 99久久99久久精品国产片果冰 | 欧美久久精品| 亚洲精品激情| 蜜桃视频在线观看一区| 亚洲成人日韩| 成人午夜国产| 国产欧洲在线| 成人精品高清在线视频| 欧美精品二区| 国产毛片精品久久| 少妇精品久久久| 综合激情网站| 免费日本视频一区| 亚洲综合电影一区二区三区| 日韩视频在线一区二区三区 | 国产乱码精品一区二区三区四区| 日韩欧美中文字幕一区二区三区 | 欧美中文高清| 亚洲精品在线国产| 亚洲毛片网站| 亚洲精品黄色| 日韩精品1区2区3区| 美女网站久久| 免费在线看一区| 日韩专区一卡二卡| 亚洲一区黄色| 在线免费观看亚洲| 一区二区日韩免费看| 丝袜诱惑制服诱惑色一区在线观看| 中文在线一区| 欧美日韩视频一区二区三区| 亚洲精品电影| 日韩中文字幕1| 亚洲精品高潮| 91精品丝袜国产高跟在线| 欧美视频久久| 国产福利资源一区| 国产一区二区三区四区| 97欧美在线视频| 成人看片网站| 亚洲精品中文字幕乱码| 午夜一级久久| 日韩国产在线观看一区| 久久国产精品色av免费看| 久久99久久久精品欧美| 久久麻豆视频| 夜鲁夜鲁夜鲁视频在线播放| 久久精品一区二区不卡| 亚洲女同一区| 亚洲精品福利| 久久不见久久见免费视频7| 91视频一区| av亚洲在线观看| 国产一区观看| 午夜国产欧美理论在线播放| 亚洲午夜电影| 欧美日韩国产一区精品一区| 黄色亚洲精品| 国产高清精品二区| 国产精品一站二站| 国模精品一区| 久久精选视频| 亚洲字幕久久| 麻豆国产欧美一区二区三区| 久久精品免费一区二区三区| 蜜桃av一区| 欧美激情aⅴ一区二区三区 | 国产女优一区| 欧美亚洲人成在线| 精品72久久久久中文字幕| 青青久久av| 亚洲精品精选| 精品国产亚洲一区二区三区在线| 欧美jjzz| 国产日产精品一区二区三区四区的观看方式| 久久精品国产99国产| 久久精品不卡| 日韩精品乱码av一区二区| 成人精品国产亚洲| 久久国产精品久久w女人spa| 欧美xxxx性| 亚洲少妇诱惑| 国语对白精品一区二区| 亚洲欧美日韩国产一区二区| 国产精品久久| 国产一区观看| 国产探花在线精品| 国产综合色产| 国产精品地址| 免费中文字幕日韩欧美| 麻豆传媒一区二区三区| 国产亚洲福利| 精品色999| 免费看欧美美女黄的网站| 国产一区二区三区日韩精品| 蜜桃av一区二区三区电影| 国产一区二区三区视频在线| 天堂va蜜桃一区二区三区| 国产精品一区二区三区www| 欧美+日本+国产+在线a∨观看| 天堂久久一区| 久久国产中文字幕| 欧美aaaaaa午夜精品| 亚洲综合三区| а√天堂8资源在线| 日韩精品免费视频一区二区三区 | 日韩不卡在线观看日韩不卡视频| 91精品综合| 美女av一区| 亚洲精品伦理| 亚洲精品一区二区在线看| 国产精品久久久久毛片大屁完整版| 欧美精选一区二区三区| 嫩呦国产一区二区三区av| 视频在线在亚洲| 成人羞羞视频在线看网址| 欧美日韩91| 亚洲一区欧美二区| 日韩另类视频| 久久国产三级| 中文无码日韩欧| 91精品婷婷色在线观看| 国产福利一区二区精品秒拍| 久久香蕉精品| 久久男女视频| 精品72久久久久中文字幕| 亚洲精品中文字幕99999| 欧美 日韩 国产一区二区在线视频 | 中文在线中文资源| 国产精品一区亚洲| 欧美性感美女一区二区|