日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python - 阿里巴巴爬蟲源碼的應用疑惑

瀏覽:170日期:2022-06-28 11:17:27

問題描述

1.目前問題:運行該py文件,沒有任何反應,請問是什么問題?2.純新手,沒接觸過py,只學完初淺的html+css。但由于公司一個項目需要搜集區域的供應商信息,想到了py爬蟲,便在一個科學怪咖的網站找到了一個爬取阿里巴巴的案例源碼3.根據案例所述,安裝好了py2.7.13、pip、selenium和火狐瀏覽器...python - 阿里巴巴爬蟲源碼的應用疑惑4.聯系了作者僅需要修改淘寶賬號密碼及搜索頁面的url即可,但是沒反應,用的是作者在git上的源碼python - 阿里巴巴爬蟲源碼的應用疑惑5.難道是要等好久好久,還是哪里出了問題?網上關于此類的問題比較少,所以特請教下6.源碼如下:

#! /usr/bin/env python# coding:utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.action_chains import ActionChainsimport timeimport urllibimport urllib2import sysimport osimport reimport csvimport numpy as np# 解決中文報錯的問題reload(sys)sys.setdefaultencoding(’utf-8’)# 打開一個火狐瀏覽器driver = webdriver.Firefox()# 睡眠3秒,防止瀏覽器還沒打開就進行了其他操作time.sleep(3)# 化工商戶頁面的urlurl = ’https://s.1688.com/company/company_search.htm?’ ’keywords=%BC%E0%BF%D8&city=%C9%EE%DB%DA&province=%B9%E3%B6%AB&n=y&filt=y’# 登錄的urllogin_url = ’https://login.1688.com/member/signin.htm?’# 跳轉到登錄頁面driver.get(login_url)# 睡眠5秒,防止網速較差打不開網頁就進行了其他操作time.sleep(5)# 找到賬號登錄框的DOM節點,并且在該節點內輸入賬號driver.find_element_by_name('TPL_username').send_keys(’’)# 找到賬號密碼框的DOM節點,并且在該節點內輸入密碼driver.find_element_by_name('TPL_password').send_keys(’’)# 找到賬號登錄框的提交按鈕,并且點擊提交driver.find_element_by_name('TPL_password').send_keys(Keys.ENTER)# 睡眠5秒,防止未登錄就進行了其他操作time.sleep(5)# 跳轉到化工商戶頁面的urldriver.get(url)# 新建一個data.csv文件,并且將數據保存到csv中csvfile = file(’data.csv’, ’web’)writer = csv.writer(csvfile)# 寫入標題,我們采集企業名稱,主頁,產品,聯系人,電話和地址信息writer.writerow(( u’企業名稱’.encode(’gbk’), u’主頁’.encode(’gbk’), u’產品’.encode(’gbk’), u’聯系人’.encode(’gbk’), u’電話’.encode(’gbk’), u’地址’.encode(’gbk’)))# 構建agents防止反爬蟲user_agents = [ ’Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11’, ’Opera/9.25 (Windows NT 5.1; U; en)’, ’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR 1.1.4322; .NET CLR2.0.50727)’, ’Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5(like Gecko) (Kubuntu)’, ’Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12’, ’Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9’, 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7', 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ',]# 總共有100頁,使用for循環采集for page in xrange(1, 100): # 捕捉異常 try:# 獲取企業名稱列表title = driver.find_elements_by_css_selector('a[class=list-item-title-text]')# 獲取產品product = driver.find_elements_by_xpath('//p[@class='list-item-detail']/p[1]/p[1]/a[1]')# 打印長度,調試print len(title)# 定義正則匹配每條商戶pattern = re.compile(’<p class='contcat-desc'.*?>(.*?)</p>’, re.S)# 定義電話正則tel_pattern = re.compile(’<dd>(.*?)</dd>’, re.S)# 定義移動電話正則member_name_pattern = re.compile(’<a.*?class='membername'.*?>(.*?)</a>’, re.S)# 定義地址正則address_pattern = re.compile(’'address'>(.*?)</dd>’, re.S)for i in xrange(len(title)): # 獲取標題的值 title_value = title[i].get_attribute(’title’) # 獲取跳轉的url href_value = title[i].get_attribute(’href’) + ’page/contactinfo.htm’ # 獲取經營范圍 product_value = product[i].text # 隨機選擇agent進行訪問 agent = np.random.choice(user_agents) # 組建header頭部 headers = {’User-Agent’: agent, ’Accept’: ’*/*’, ’Referer’: ’http://www.google.com’} # 使用urllib2進行Request request = urllib2.Request(href_value, headers=headers) # 訪問鏈接 response = urllib2.urlopen(request) # 獲得網頁源碼 html = response.read() # 進行信息匹配 info = re.findall(pattern, html) try:info = info[0] except Exception, e:continue tel = re.findall(tel_pattern, info) try:tel = tel[0]tel = tel.strip()tel = tel.replace(’ ’, ’-’) except Exception, e:continue member_name = re.findall(member_name_pattern, html) try:member_name = member_name[0]member_name = member_name.strip() except Exception, e:continue address = re.findall(address_pattern, html) try:address = address[0]address = address.strip() except Exception, e:address = ’’ # 打印出信息,方便查看進度 print ’tel:’ + tel print ’member_name:’ + member_name data = (title_value.encode(’gbk’, ’ignore’),title[i].get_attribute(’href’),product_value.encode(’gbk’, ’ignore’),member_name,tel,address ) writer.writerow(data)js = ’var q=document.documentElement.scrollTop=30000’driver.execute_script(js)time.sleep(1)page = driver.find_elements_by_css_selector('a[class=page-next]')page = page[0]page.click()time.sleep(2) except Exception, e:print ’error’continue# 關閉csvcsvfile.close()# 關閉模擬瀏覽器driver.close()

問題解答

回答1:

前提你你裝好python之后配置好python的環境變量,也就說你在cmd命令行可以運行python命然后進到py文件所在目錄,執行

python -u alibaba.py

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国内自拍视频一区二区三区| av资源中文在线天堂| 中文字幕系列一区| 国产成年精品| 欧美日韩调教| 欧美日韩中出| 国产九九精品| 国产高清日韩| 免费亚洲一区| sm久久捆绑调教精品一区| 成人日韩av| 精品国产一区二区三区性色av| 麻豆精品在线播放| 精品美女视频| 日韩黄色大片| 久久精品国产68国产精品亚洲| 久久久噜噜噜| 黄色av一区| 免费人成在线不卡| 视频一区在线播放| 日本不卡视频在线| 国产精品一区高清| 国产精品成人a在线观看| 色偷偷色偷偷色偷偷在线视频| 久久免费黄色| 亚洲综合精品四区| 日韩亚洲精品在线观看| 国产精品极品国产中出| 精品久久99| 久久天堂成人| 野花国产精品入口| 日韩精品免费视频一区二区三区| 国产精品成人**免费视频| 福利在线一区| 亚洲不卡av不卡一区二区| 99视频精品免费观看| 午夜性色一区二区三区免费视频| 国产精品亚洲欧美| 丝袜av一区| 午夜亚洲福利| 高清日韩中文字幕| 日韩午夜一区| 国产探花在线精品| 日韩大片在线观看| 久久亚洲影院| 久久超碰99| 亚洲香蕉网站| 日韩成人精品一区二区三区 | 99精品在线观看| 鲁大师影院一区二区三区| 日本aⅴ免费视频一区二区三区| 精品国产美女a久久9999| 欧美日韩少妇| 国产精品综合色区在线观看| 91精品推荐| 日韩精品中文字幕一区二区| 国产精品久久久久蜜臀| 夜夜精品视频| 国产精品15p| 欧美va天堂在线| 香蕉久久久久久| 日韩一区三区| 日韩二区三区四区| 久久婷婷亚洲| 欧美日韩黄网站| 女主播福利一区| 久久不卡国产精品一区二区| 日韩一区二区久久| 精品亚洲自拍| 最近国产精品视频| 国产精品字幕| 欧美自拍一区| 欧美~级网站不卡| 欧美精品91| 欧美资源在线| 成人午夜毛片| 日韩精品三级| 亚洲制服少妇| 不卡专区在线| 日本麻豆一区二区三区视频| 欧美一区二区三区高清视频 | 欧美日韩1区2区3区| 久久人人99| 你懂的国产精品| 亚洲三级精品| 欧美 日韩 国产精品免费观看| 国产精品一级| 免费黄网站欧美| 亚洲播播91| 国产精品白丝一区二区三区| 久久性天堂网| 欧美精选一区二区三区| 国产一区2区| 国产精品久久久久久av公交车| 丝袜美腿一区二区三区| 欧美不卡高清一区二区三区| 国产精品夜夜夜| 亚洲精品动态| 日韩亚洲在线| 欧美日韩在线二区| 精品国产aⅴ| 日韩av一二三| 午夜在线一区| 久久精品影视| 国产精品二区不卡| 美女国产精品久久久| 日韩视频1区| 久久电影一区| 99久久久久久中文字幕一区| 激情中国色综合| 国产欧美一区二区精品久久久 | 欧美一级网站| 伊人久久大香伊蕉在人线观看热v| 在线视频观看日韩| 成人日韩在线| 国产精品久久久久久久久妇女| 国产精品片aa在线观看| 欧美片第1页综合| 91精品福利观看| 日韩高清一区| 日韩精品久久久久久| 亚洲影视一区二区三区| 欧美一区=区| 欧美在线综合| 男人的天堂久久精品| 日韩精品一区第一页| 国产亚洲福利| 免费日韩视频| 蜜臀久久久99精品久久久久久| 国产亚洲福利| 免费在线欧美视频| 丝袜a∨在线一区二区三区不卡 | 一区福利视频| 女人天堂亚洲aⅴ在线观看| 午夜免费一区| 午夜在线播放视频欧美| 蜜臀精品一区二区三区在线观看| 日韩一区精品视频| 日本不卡一二三区黄网| 国产日产一区| 精品一区二区三区中文字幕| 国产aa精品| 久久精品官网| 亚洲作爱视频| 久久亚洲影院| 天堂av一区| 国产精品一区二区三区www| 久久av国产紧身裤| 麻豆视频在线看| 91精品婷婷色在线观看| 一区三区视频| 日韩国产精品久久久| 美女视频网站久久| 蜜臀国产一区| 自拍日韩欧美| 日本国产欧美| 国语对白精品一区二区| 99久久婷婷| 亚洲一二av| 91精品国产自产精品男人的天堂| 久久99性xxx老妇胖精品| 日韩国产在线| 美女精品网站| 国产日产精品一区二区三区四区的观看方式 | 日韩精品永久网址| 伊人久久婷婷| 日本视频一区二区| 精品日韩一区| 欧美另类综合| 视频一区日韩精品| 久久伊人久久| 亚洲手机在线| 综合亚洲色图| 成人精品动漫一区二区三区| 午夜欧美在线| 国产精品一区三区在线观看| 日韩在线欧美| 蜜桃av一区二区三区电影| 国产精品九九| 欧美福利在线| 日本视频在线一区| 在线中文字幕播放| 日韩中文字幕91| 成人在线视频免费| 国产视频久久| 国产精品国码视频| 国产精品99免费看| 国产乱码精品一区二区亚洲| 日本少妇一区| 日韩和欧美一区二区| 日韩精品永久网址| 日韩一区二区三区高清在线观看| 高清一区二区三区av| 喷白浆一区二区| 国产a久久精品一区二区三区| 久色成人在线| 超碰在线99| 日韩精品亚洲一区二区三区免费| 精品国产免费人成网站| 综合激情婷婷|