日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python實現csdn全部博文下載并轉PDF

瀏覽:18日期:2022-06-16 18:21:40

我們學習編程,在學習的時候,會有想把有用的知識點保存下來,我們可以把知識點的內容爬下來轉變成pdf格式,方便我們拿手機可以閑時翻看,是很方便的

先來一個單個的博文下載轉pdf格式的操作

python實現csdn全部博文下載并轉PDF

python中將html轉化為pdf的常用工具是Wkhtmltopdf工具包,在python環境下,pdfkit是這個工具包的封裝類。如何使用pdfkit以及如何配置呢?分如下幾個步驟。

下載wkhtmltopdf安裝包,并且安裝到電腦上。下載地址:https://wkhtmltopdf.org/downloads.html

python實現csdn全部博文下載并轉PDF

我下的是這個版本,安裝的時候要記住路徑,之后調用要用到路徑

python實現csdn全部博文下載并轉PDF

開發工具 python pycharm pdfkit (pip install pdfkit) lxml

今天目標:博主的全部博文下載,并且轉pdf格式保存

基本思路:

1、url + headers2、分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼3、lxml解析獲取boke_urls, author_name4、循環遍歷,得到 boke_url5、xpath解析獲取文件名6、css選擇器獲取標簽文本的主體7、構造拼接html文件8、保存html文件9、文件的轉換

分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼start_url =“https://i1bit.blog.csdn.net/” 為例確定網址為同步加載

python實現csdn全部博文下載并轉PDF

css選擇器獲取標簽文本的主體為代碼要點部分css語法部分

# css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)

點開博主的一篇博文打開開發者工具

python實現csdn全部博文下載并轉PDF

# css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)

文件的轉換

config = pdfkit.configuration(wkhtmltopdf=r’這里為下載wkhtmltopdf.exe的路徑’) pdfkit.from_file(第一個參數要轉變的html文件,第二個參數轉變后的pdf文件,configuration=config ) # 上面這樣寫清楚一點,也可以直接 pdfkit.from_file(第一個參數要轉變的html文件,第二個參數轉變后的pdf文件, configuration=pdfkit.configuration(wkhtmltopdf=r’這里為下載wkhtmltopdf.exe的路徑’) )

源碼展示:

import parsel, os, pdfkitfrom lxml import etreefrom requests_html import HTMLSessionsession = HTMLSession()def main(): # 1、url + headers start_url = input(r’請輸入csdn博主的地址:’) headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ’ ’(KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36’ } # 2、分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼 response_1 = session.get(start_url, headers=headers).text # 3、解析獲取boke_urls, author_name html_xpath_1 = etree.HTML(response_1) author_name = html_xpath_1.xpath(r’//*[@id='floor-user-profile_485']/div/div[1]/div[2]/div[2]/div[1]/div[1]/text()’)[0] boke_urls = html_xpath_1.xpath(r’//article[@class='blog-list-box']/a/@href’) # 4、循環遍歷,得到 boke_url for boke_url in boke_urls:# 5、請求response_2 = session.get(boke_url, headers=headers).text# 6、xpath解析獲取文件名html_xpath_2 = etree.HTML(response_2)file_name = html_xpath_2.xpath(r’//h1[@id='articleContentId']/text()’)[0]# 7、css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 8、構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)# 9、創建兩個文件夾, 一個用來保存html 一個用來保存pdf文件if not os.path.exists(r’{}-html’.format(author_name)): os.mkdir(r’{}-html’.format(author_name))if not os.path.exists(r’{}-pdf’.format(author_name)): os.mkdir(r’{}-pdf’.format(author_name))# 10、保存html文件try: with open(r’{}-html/{}.html’.format(author_name, file_name), ’w’, encoding=’utf-8’) as f:f.write(html)except Exception as e: print(’文件名錯誤’)# 11、文件的轉換try: config = pdfkit.configuration(wkhtmltopdf=r’C:Program Fileswkhtmltopdfbinwkhtmltopdf.exe’) pdfkit.from_file(’{}-html/{}.html’.format(author_name, file_name),’{}-pdf/{}.pdf’.format(author_name, file_name),configuration=config ) a = print(r’--文件下載成功:{}.pdf’.format(file_name))except Exception as e: continueif __name__ == ’__main__’: main()

代碼操作:

python實現csdn全部博文下載并轉PDF

到此這篇關于python實現csdn全部博文下載并轉PDF的文章就介紹到這了,更多相關python 博文下載并轉PDF內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美亚洲激情| 国产精品久久国产愉拍| 你懂的亚洲视频| 国产精品三p一区二区| 国产激情综合| 日韩国产一区| 婷婷激情综合| 日韩精品亚洲专区| 免费成人性网站| 日韩福利视频导航| 美女精品视频在线| 99久久婷婷这里只有精品| 亚洲欧美日韩在线观看a三区 | 好看的av在线不卡观看| 日韩专区欧美专区| 国产精品亚洲二区| 亚洲精品国产嫩草在线观看| 99国产精品| 国产精区一区二区| 久久久久久免费视频| 亚洲欧洲一区二区天堂久久| 三级久久三级久久久| 久久尤物视频| 亚洲免费高清| 久久精品国产999大香线蕉| 亚洲一级二级| 日韩精品视频中文字幕| www.九色在线| 无码日韩精品一区二区免费| 国产理论在线| 中文字幕一区二区av| 久久精品亚洲| 老司机精品久久| 国产一区二区三区网| 好吊一区二区三区| 国产精品日韩精品中文字幕| 99精品美女| 欧美有码在线| 亚洲电影在线一区二区三区| 奇米狠狠一区二区三区| 亲子伦视频一区二区三区| 青青伊人久久| 成人av二区| 精品精品99| 亚洲精品成人一区| 国精品一区二区| 精品一区二区三区在线观看视频 | 欧美精品aa| 亚洲精品97| zzzwww在线看片免费| 国产亚洲字幕| 只有精品亚洲| 欧美日韩一二三四| 久久亚洲黄色| 欧美一级网址| 久久国产精品久久w女人spa| 麻豆视频在线观看免费网站黄| 日韩中文一区二区| 五月天激情综合网| 伊人久久在线| 国产精品久久久久久久免费软件| 性欧美精品高清| 日韩大片在线播放| 国产精品1luya在线播放| 一二三区精品| 香蕉视频成人在线观看| 激情综合激情| 中文在线免费视频| 另类欧美日韩国产在线| 欧美一区91| 婷婷成人av| 亚洲欧美久久久| 欧美/亚洲一区| 国产欧洲在线| 久久精品国产999大香线蕉| 欧美另类中文字幕 | 国产探花在线精品一区二区| 久久中文视频| 日韩另类视频| 日韩深夜视频| 色婷婷亚洲mv天堂mv在影片| 国产精品尤物| 国产日韩欧美一区在线| 午夜久久av | 老牛国产精品一区的观看方式| 欧美日韩一二| 日韩精品dvd| 日韩精品中文字幕第1页| 老牛国内精品亚洲成av人片| 国产欧美久久一区二区三区| 欧美精品国产一区| 国产精品主播| 欧美国产另类| 精品不卡一区| 欧产日产国产精品视频| 欧美日韩免费观看视频| 亚洲va中文在线播放免费| 日本免费久久| 亚洲黑丝一区二区| 欧美日韩国产高清电影| 日韩亚洲国产欧美| 日韩一区二区久久| 影音先锋久久精品| 日本不卡在线视频| 国产精品白丝av嫩草影院| 麻豆精品久久久| 美女av在线免费看| 国产一区欧美| 蜜臀va亚洲va欧美va天堂| 国产精品日本一区二区三区在线| 国产精品videossex久久发布| 开心激情综合| 日韩欧美一区二区三区在线观看 | 亚洲aⅴ网站| 日韩av一区二区三区四区| 国产探花一区二区| 卡一精品卡二卡三网站乱码| 在线手机中文字幕| 激情91久久| 日韩精品福利一区二区三区| 久久精品国产99国产| 999精品一区| 综合亚洲视频| 欧美激情视频一区二区三区免费 | 麻豆成人综合网| 伊人久久大香线蕉av不卡| 视频一区欧美精品| 国产乱码精品一区二区三区亚洲人| 精品免费av| 影音国产精品| 国产调教精品| 亚洲成人精品| 日韩1区2区3区| av资源中文在线天堂| 亚洲欧美日本日韩| 老司机精品视频在线播放| 美女毛片一区二区三区四区 | 蜜臀av一区二区三区| 国产精品香蕉| 欧美亚洲激情| 国产精品资源| 日韩视频久久| 国产精品一区二区99| 久久久久.com| 97久久亚洲| 久久在线免费| 国产精品99久久免费观看| 欧美成人综合| 国产精品久久久久久久久免费高清| 欧美日韩国产一区二区三区不卡| 欧美一区免费| 日韩午夜电影| 日本久久精品| 日韩专区在线视频| 日韩国产一区二区| 日韩动漫一区| 色综合www| 国产精品久久久久久妇女| 不卡av一区二区| 久久在线91| 亚洲精品欧洲| 亚洲先锋成人| 狠狠久久伊人| 青青草91视频| 午夜在线视频观看日韩17c| 日本欧美国产| 国产日韩高清一区二区三区在线| 婷婷亚洲综合| 久久91视频| 中文字幕一区二区精品区| 欧美日韩精品一区二区视频| 久久精品国产久精国产| 日本综合精品一区| 中文久久精品| 色一区二区三区| 国产精品宾馆| 日韩亚洲精品在线观看| aⅴ色国产欧美| 伊人久久高清| 国产精品成久久久久| 国产精品视频3p| 日本国产亚洲| 日韩精品一二三| 久久精品一区二区不卡| 国产不卡一区| 捆绑调教美女网站视频一区| 欧美一级网站| 日韩欧美中文字幕在线视频| 亚洲少妇一区| 午夜久久免费观看| 日韩精品欧美| 久久久久久免费视频| 一区二区精品伦理...| 久久中文字幕一区二区三区| 国产精品传媒麻豆hd| 国产美女视频一区二区| 国产亚洲高清在线观看| 欧美日韩午夜电影网| 亚洲一区二区免费在线观看| 免费日韩av片|