文章詳情頁

Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

瀏覽：30日期：2022-07-25 18:56:39

以網(wǎng)頁表格為例：https://www.kuaidaili.com/free/

該網(wǎng)站數(shù)據(jù)存在table標簽，直接用requests，需要結(jié)合bs4解析正則/xpath/lxml等，沒有幾行代碼是搞不定的。

今天介紹的黑科技是pandas自帶爬蟲功能，pd.read_html()，只需傳人url，一行代碼搞定。

原網(wǎng)頁結(jié)構(gòu)如下：

Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

python代碼如下：

import pandas as pdurl=’http://www.kuaidaili.com/free/’df=pd.read_html(url)[0] # [0]：表示第一個table，多個table需要指定，如果不指定默認第一個# 如果沒有【0】，輸入dataframe格式組成的listdf

輸出dataframe格式數(shù)據(jù)

Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

再次保存到本地，csv格式，注意中文編碼：utf_8_sig

print(type(df))df.to_csv(’free ip.csv’,mode=’a’, encoding=’utf_8_sig’, header=1, index=0)print(’done!’)

查看csv文件

Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

先來了解一下read_html函數(shù)的api:

pandas.read_html(io, match=’.+’, flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=’, ’, encoding=None, decimal=’.’, converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的參數(shù)：

io:可以是url、html文本、本地文件等； flavor：解析器； header：標題行； skiprows：跳過的行； attrs：屬性，比如 attrs = {’id’: ’table’}； parse_dates：解析日期

注意：返回的結(jié)果是**DataFrame**組成的**list**。

若要dataframe，直接取list【0】

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python基于codecs模塊實現(xiàn)文件讀寫案例解析下一條：python中sort sorted reverse reversed函數(shù)的區(qū)別說明

相關(guān)文章：

1. 使用Python webdriver圖書館搶座自動預約的正確方法2. Python3 json模塊之編碼解碼方法講解3. Python 合并拼接字符串的方法4. ASP基礎(chǔ)知識VBScript基本元素講解5. Linux刪除系統(tǒng)自帶版本Python過程詳解6. Android 簡單的實現(xiàn)滑塊拼圖驗證碼功能7. 淺談由position屬性引申的css進階討論8. ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進度條9. PHP如何開啟Opcache功能提升程序處理效率10. 在線php代碼縮進、代碼美化工具：PHP Formatter

排行榜

					
					使用Python webdriver圖書館搶座自動預約的正確方法
Android 簡單的實現(xiàn)滑塊拼圖驗證碼功能
ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進度條
淺談django不使用restframework自定義接口與使用的區(qū)別
淺談由position屬性引申的css進階討論
樹型結(jié)構(gòu)列出指定目錄里所有文件的PHP類
Linux刪除系統(tǒng)自帶版本Python過程詳解
ASP基礎(chǔ)知識VBScript基本元素講解
Python 合并拼接字符串的方法
Android Studio實現(xiàn)格式化XML代碼順序
vue驗證碼組件使用方法詳解