日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python 爬蟲的原理

瀏覽:25日期:2022-07-15 18:21:07

爬蟲就是請求網站并提取數據的自動化程序。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程

爬蟲的基本流程

發起請求

通過HTTP庫向目標站點發起請求,也就是發送一個Request,請求可以包含額外的header等信息,等待服務器響應

獲取響應內容

如果服務器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能是HTML,Json字符串,二進制數據(圖片或者視頻)等類型

解析內容

得到的內容可能是HTML,可以用正則表達式,頁面解析庫進行解析,可能是Json,可以直接轉換為Json對象解析,可能是二進制數據,可以做保存或者進一步的處理

保存數據

保存形式多樣,可以存為文本,也可以保存到數據庫,或者保存特定格式的文件

什么是Request,Response

瀏覽器發送消息給網址所在的服務器,這個過程就叫做HTPP Request

服務器收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容,做相應的處理,然后把消息回傳給瀏覽器,這個過程就是HTTP Response

瀏覽器收到服務器的Response信息后,會對信息進行相應的處理,然后展示

Request中包含什么?請求方式

主要有:GET/POST兩種類型常用,另外還有HEAD/PUT/DELETE/OPTIONSGET和POST的區別就是:請求的數據GET是在url中,POST則是存放在頭部

GET:向指定的資源發出“顯示”請求。使用GET方法應該只用在讀取數據,而不應當被用于產生“副作用”的操作中,例如在Web Application中。其中一個原因是GET可能會被網絡蜘蛛等隨意訪問

POST:向指定資源提交數據,請求服務器進行處理(例如提交表單或者上傳文件)。數據被包含在請求本文中。這個請求可能會創建新的資源或修改現有資源,或二者皆有。

HEAD:與GET方法一樣,都是向服務器發出指定資源的請求。只不過服務器將不傳回資源的本文部分。它的好處在于,使用這個方法可以在不必傳輸全部內容的情況下,就可以獲取其中“關于該資源的信息”(元信息或稱元數據)。

PUT:向指定資源位置上傳其最新內容。

OPTIONS:這個方法可使服務器傳回該資源所支持的所有HTTP請求方法。用’*’來代替資源名稱,向Web服務器發送OPTIONS請求,可以測試服務器功能是否正常運作。

DELETE:請求服務器刪除Request-URI所標識的資源。

請求URL

URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。

URL的格式由三個部分組成:

第一部分是協議(或稱為服務方式)。 第二部分是存有該資源的主機IP地址(有時也包括端口號)。 第三部分是主機資源的具體地址,如目錄和文件名等。

爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據,因此,它是爬蟲獲取數據的基本依據。

請求頭

包含請求時的頭部信息,如User-Agent,Host,Cookies等信息,下圖是請求請求百度時,所有的請求頭部信息參數

Python 爬蟲的原理

請求體

請求是攜帶的數據,如提交表單數據時候的表單數據(POST)

Response中包含了什么

所有HTTP響應的第一行都是狀態行,依次是當前HTTP版本號,3位數字組成的狀態代碼,以及描述狀態的短語,彼此由空格分隔。

響應狀態

有多種響應狀態,如:200代表成功,301跳轉,404找不到頁面,502服務器錯誤

1xx消息——請求已被服務器接收,繼續處理 2xx成功——請求已成功被服務器接收、理解、并接受 3xx重定向——需要后續操作才能完成這一請求 4xx請求錯誤——請求含有詞法錯誤或者無法被執行 5xx服務器錯誤——服務器在處理某個正確請求時發生錯誤 常見代碼: 200 OK 請求成功 400 Bad Request 客戶端請求有語法錯誤,不能被服務器所理解 401 Unauthorized 請求未經授權,這個狀態代碼必須和WWW-Authenticate報頭域一起使用 403 Forbidden 服務器收到請求,但是拒絕提供服務 404 Not Found 請求資源不存在,eg:輸入了錯誤的URL 500 Internal Server Error 服務器發生不可預期的錯誤 503 Server Unavailable 服務器當前不能處理客戶端的請求,一段時間后可能恢復正常 301 目標永久性轉移 302 目標暫時性轉移

響應頭

如內容類型,類型的長度,服務器信息,設置Cookie,如下圖

Python 爬蟲的原理

響應體

最主要的部分,包含請求資源的內容,如網頁HTMl,圖片,二進制數據等

能爬取什么樣的數據

網頁文本:如HTML文檔,Json格式化文本等圖片:獲取到的是二進制文件,保存為圖片格式視頻:同樣是二進制文件其他:只要請求到的,都可以獲取

如何解析數據

直接處理 Json解析 正則表達式處理 BeautifulSoup解析處理 PyQuery解析處理 XPath解析處理

關于抓取的頁面數據和瀏覽器里看到的不一樣的問題

出現這種情況是因為,很多網站中的數據都是通過js,ajax動態加載的,所以直接通過get請求獲取的頁面和瀏覽器顯示的不同。

如何解決js渲染的問題?

分析ajax Selenium/webdriver Splash PyV8,Ghost.py

怎樣保存數據

文本:純文本,Json,Xml等

關系型數據庫:如mysql,oracle,sql server等結構化數據庫

非關系型數據庫:MongoDB,Redis等key-value形式存儲

以上就是Python 爬蟲的原理的詳細內容,更多關于Python爬蟲的原理的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日韩免费一区| 日韩精品欧美| 久久99久久久精品欧美| 久久99青青| 欧美亚洲tv| 激情欧美一区二区三区| 夜夜精品视频| 欧美特黄一区| 国产乱子精品一区二区在线观看| 伊人影院久久| 国产调教精品| 久久电影tv| 六月天综合网| 国产精品尤物| 激情黄产视频在线免费观看| 欧美日韩三区| 国产精品久久乐| 蜜臀久久99精品久久久久宅男| 日本大胆欧美人术艺术动态| 性一交一乱一区二区洋洋av| 三级小说欧洲区亚洲区| 99在线精品视频在线观看| 99亚洲视频| 日韩国产在线一| 桃色一区二区| 神马久久午夜| 丝袜美腿成人在线| 91中文字幕精品永久在线| 亚洲成人日韩| 精品一区视频| 日韩精品一二区| 97精品一区| 亚洲久久一区| 91亚洲国产成人久久精品| 美女毛片一区二区三区四区| 国产精品1luya在线播放| 中文字幕一区二区精品区| 亚洲一级特黄| 蜜臀久久99精品久久久久宅男| 亚洲精品欧美| av在线最新| 蜜桃久久久久久| 日本视频中文字幕一区二区三区| 天堂av一区| 伊人久久大香线蕉av不卡| 日本视频一区二区| 亚洲国产一区二区在线观看| 久久麻豆精品| 福利视频一区| 国产精品毛片| av一区二区高清| 日韩欧美不卡| 日韩欧乱色一区二区三区在线| 韩国三级一区| 91一区二区| 国产精品毛片在线看| 亚洲色图综合| 在线观看免费一区二区| 麻豆91在线播放| 国产精品久久久久久久久妇女| 一区二区三区四区日本视频| 亚洲1234区| 国产亚洲精品v| 久久婷婷av| 日韩一区精品视频| 亚洲视频国产| 亚洲欧美专区| 热久久国产精品| 国产图片一区| 综合色就爱涩涩涩综合婷婷| 奇米狠狠一区二区三区| 亚洲激情社区| 久久精品国产久精国产| 视频一区二区三区入口| 麻豆视频在线观看免费网站黄| 黄页网站一区| 亚洲欧美日韩国产综合精品二区| 亚洲精品大片| 欧美成人a交片免费看| 奇米狠狠一区二区三区| 久久精品国语| 成人在线视频区| 亚洲综合色婷婷在线观看| 日韩免费小视频| 国产精品美女| 亚洲欧美日韩一区在线观看| 一二三区精品| 老鸭窝亚洲一区二区三区| 噜噜噜久久亚洲精品国产品小说| 色一区二区三区四区| 久久不卡国产精品一区二区| 99pao成人国产永久免费视频| 欧美日韩一区二区三区在线电影| 亚洲伊人精品酒店| 亚洲先锋成人| 性欧美xxxx免费岛国不卡电影| 岛国精品一区| 欧美一级鲁丝片| 久久影视三级福利片| 亚洲精品日韩久久| 精品一区二区三区中文字幕视频| 国产一区日韩| 亚洲韩日在线| 亚洲精品看片| 美女久久精品| 伊人久久国产| 亚洲欧洲高清| 国产一区二区精品久| 麻豆视频观看网址久久| 欧美日韩精品一区二区三区视频| 日韩精品五月天| 美女毛片一区二区三区四区最新中文字幕亚洲 | 石原莉奈一区二区三区在线观看| 日韩中文在线电影| 国产精品草草| 亚洲性视频在线| 亚洲欧美网站在线观看| 日韩精品一二区| 精品国产欧美| 亚洲资源在线| 99精品网站| 欧美精品第一区| 亚洲欧美专区| 免费在线观看不卡| 欧美va天堂在线| 麻豆91在线播放| 男人的天堂久久精品| 国产99亚洲| 日韩国产一二三区| 欧洲一级精品| 国产精品免费大片| 国产婷婷精品| 欧美激情一区| 日韩综合在线| 免费一级片91| 亚洲精品影院在线观看| 国产 日韩 欧美 综合 一区| 亚洲婷婷免费| 国产69精品久久| 中文字幕高清在线播放| 欧美久久精品| 69精品国产久热在线观看| 国产精品一页| 久久青草久久| 精品三级在线| 国产欧美日韩综合一区在线播放| 香蕉精品视频在线观看| 日韩av一区二区三区四区| 极品日韩av| 日韩精品一二三| 精品少妇一区| 国产高清亚洲| 首页国产欧美日韩丝袜| 精品91福利视频| 丝袜美腿一区二区三区| 亚洲18在线| 国产精品社区| 国产精品毛片在线看| 婷婷成人综合| 精品成人18| 日韩精彩视频在线观看| 日韩美女精品| 亚洲精品在线二区| 91精品观看| 欧美不卡高清| 国产一区久久| 精品视频一区二区三区在线观看 | 午夜久久福利| 国产精品av久久久久久麻豆网| 自拍自偷一区二区三区| 日本大胆欧美人术艺术动态| 麻豆精品久久| 三上亚洲一区二区| 亚洲欧美成人综合| 免费一级欧美片在线观看网站| 婷婷综合亚洲| 91精品日本| 亚洲激情中文| 色黄视频在线观看| 日韩成人午夜精品| 午夜欧美在线| 日本精品在线中文字幕| 国产精品66| 亚洲欧美日韩国产| 午夜精品久久久久久久久久蜜桃| 亚洲精品成人一区| 日韩精品91| 精品九九久久| 国产精品亚洲综合久久| 欧美+日本+国产+在线a∨观看| 精品三级在线观看视频| 你懂的国产精品| 日韩欧美三区| 日韩av黄色在线| 亚洲一区欧美| 婷婷精品在线| 日韩精品欧美成人高清一区二区| 97久久超碰| 日韩三区四区| 欧美视频久久|