日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

瀏覽:137日期:2022-06-26 08:24:48
第一、幾種常用方法

讀取TXT文檔:urlopen()

讀取PDF文檔:pdfminer3k

第二、亂碼問題

(1)、

from urllib.request import urlopen#訪問wiki內容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read())輸出的結果中出現亂碼原因:

計算機只能處理0和1兩個數字,所以想要處理文本,必須把文本變成0和1這樣的數字,最早的計算機使用八個0和1表示一個字節,所以最大能夠表示整數是255=11111111.如果想要表示更大的數,必須使用更多的字節。

由于計算機是美國人發明的,所以最早只有127個字符被編寫進計算機,即常見的阿拉伯數字,字母大小寫,以及鍵盤上的符號。此編碼被稱為ASCII編碼,比如大寫字母A的ASCII編碼是65,65再被轉換二進制01000001,即是計算機處理的東西。

顯然,ASCII不能表示中文,故中國制定了自己的GB2312編碼,并且兼容ASCII編碼。問題是:使用GB2312編碼的慕課網三個字,假設編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示,日文中的616263編碼成其他字符,打開后意思出錯。

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

解決方法:

國際上的unicode編碼,整合全世界所有編碼。故unicode編碼的內容在任一臺計算機用unicode仍正常打開

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

又對于A,ASCII編碼為01000001,Unicode編碼:0000000001000001此時浪費空間

故出現UTF-8編碼:01000001此時用兩個八位存儲中文。

(2)、記事本使用unicode編碼,將記事本存到計算機時,將轉化為utf-8儲存。

在計算機中打開文本時,將轉化為unicode編碼

存儲原因:使用utf-8儲存節省空間,使用unicode打開保證最大的兼容

(3)、服務器讀取uncode編碼的文檔,轉化為utf-8格式傳給瀏覽器。因為網絡帶寬昂貴,轉化為了減少負擔。

(4)、python3字符串默認使用Unicode編碼,所以python3支持多種語言

以Unicode表示的str通過encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼,遇到ASCII碼表沒有的字符會以x##表示,此時只用‘x##’.decode(’utf-8’)即可

(5)、解決方法

from urllib.request import urlopen#訪問wiki內容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read().decode('utf-8'))第三、pdfminer3k安裝法一:

(1)、進入網址直接下載并解壓:https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運行命令行窗口,進入軟件解壓縮位置,運行python setup.py install

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

法二:

(3)、直接在pycharm中安裝

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

(4)、讀取pdf過程:首先創建一個分析器pdfparser和文檔對象pdfdocument,并通過兩個方法相互關聯,然后調用文檔對象的初始化方法(可以傳參數),此時資源內容被加載到文檔對象中。

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

創建資源管理器和參數分析器,然后創建聚合器(整合資源管理器和參數分析器),通過聚合器創建解釋器(對pdf文檔進行編碼,解釋成python能識別的格式)

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

(5)、讀取pdf文檔:通過文檔對象的get_pages()方法得到pdf每一頁的內容,通過解釋器的process_page()方法讀取一頁一頁。

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

(6)、實例演示

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevice#獲得文檔對象,以二進制讀方式打開fp = open('naacl06-shinyama.pdf', 'rb')#創建一個與文檔關聯的分析器parser = PDFParser(fp)#創建一個pdf文檔的對象doc = PDFDocument()#連接解釋器與文檔對象parser.set_document(doc)doc.set_parser(parser)#初始化文檔,如果文檔有密碼,寫與此。doc.initialize('')#創建pdf資源管理器resource = PDFResourceManager()#參數分析器laparam = LAParams()#創建聚合器device = PDFPageAggregator(resource, laparams=laparam)#創建pdf頁面解釋器interpreter = PDFPageInterpreter(resource, device)#使用文檔對象得到頁面的集合for page in doc.get_pages(): #使用頁面解釋器讀取 interpreter.process_page(page) #使用聚合器來獲得內容 layout = device.get_result() for out in layout: if hasattr(out, 'get_text'): print(out.get_text())

一下用于讀取網站上pdf內容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補充內容:

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持好吧啦網。如有錯誤或未考慮完全的地方,望不吝賜教。

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美精选视频一区二区| 亚洲精品一区二区在线播放∴| 亚洲精品欧洲| 日韩中文字幕不卡| 久久国产精品99国产| 亚洲激情中文| 婷婷综合网站| 天使萌一区二区三区免费观看| 午夜在线播放视频欧美| 日韩精品一卡二卡三卡四卡无卡| 亚洲欧美日韩国产综合精品二区| 亚洲黄色影院| 综合激情一区| 国产精品一区二区免费福利视频 | 欧美日韩 国产精品| 日韩高清一区二区| 国产精品日本一区二区三区在线| 国产精品99精品一区二区三区∴| 福利片在线一区二区| 精品日韩视频| 亚洲一区二区三区无吗| 欧美一级网址| 国产一区二区三区日韩精品| 国产成人精选| 天堂网在线观看国产精品| 蜜桃传媒麻豆第一区在线观看| 91大神在线观看线路一区| 麻豆91精品91久久久的内涵| 精品久久一区| 激情视频一区二区三区| 一本综合精品| 精品久久99| 亚洲国产专区校园欧美| 综合国产在线| 日本久久精品| 在线观看免费一区二区| 亚洲欧洲专区| 久久这里只有| 亚洲第一精品影视| 蜜臀久久99精品久久久画质超高清| 日本在线不卡视频一二三区| 久久精品国产99| 亚洲h色精品| 久久都是精品| 欧美日韩1区| 日韩欧美一区二区三区免费观看| 欧美中文日韩| 精品午夜久久| 日韩中文字幕亚洲一区二区va在线| 国产精品成人国产| 久久亚洲精品中文字幕蜜潮电影| 日韩精品亚洲专区| 亚洲欧洲美洲av| 亚洲精品欧美| 色爱av综合网| 日韩高清欧美激情| 国产精品字幕| 国产精品亲子伦av一区二区三区 | 亚洲精品伦理| 日韩成人精品一区二区| 中文亚洲欧美| 韩日一区二区| 亚洲视频电影在线| а√天堂8资源中文在线| 蜜桃传媒麻豆第一区在线观看| 精品国产亚洲一区二区三区大结局| 国产精品色网| 日韩三区免费| 91麻豆精品激情在线观看最新 | 欧美国产亚洲精品| 国产亚洲亚洲| 日韩一区欧美| 欧美久久精品| 黄色免费成人| 欧美三级网址| 国产精品一级| 亚洲精品大全| 欧美69视频| 麻豆mv在线观看| 日本不卡视频在线观看| 欧美久久精品一级c片| 国语精品一区| 欧美日韩调教| 综合亚洲自拍| 99精品99| 91精品韩国| 精品三级av| 911亚洲精品| 亚洲精品免费观看| 久久高清一区| 激情综合在线| 日韩在线二区| 电影91久久久| 开心激情综合| 欧美日韩亚洲三区| 婷婷亚洲成人| 中文字幕亚洲影视| 国产精品三上| 91成人精品| 日韩欧美午夜| av资源中文在线| 久久精品天堂| 久久久久观看| 欧美国产极品| 国产欧美日韩| 欧美日韩夜夜| 国产欧美日韩精品高清二区综合区| 日韩中文字幕无砖| 日韩精品一区第一页| 一区在线观看| 亚洲精品va| 亚洲少妇在线| 国产视频亚洲| 国产精品女主播一区二区三区| 国产视频一区三区| 美女久久网站| 亚洲不卡视频| 日本国产一区| 国产美女久久| 免费在线日韩av| 精品成人18| 色黄视频在线观看| 群体交乱之放荡娇妻一区二区| 欧洲亚洲一区二区三区| 九九精品调教| 久久亚洲成人| 亚洲电影在线| 亚洲一区二区动漫| 视频一区二区中文字幕| 一区二区91| 国产情侣久久| 国产一区二区三区不卡av| 成年男女免费视频网站不卡| 日韩av福利| 黄色成人在线网址| 亚洲三级在线| 国产极品模特精品一二| 久久中文字幕一区二区| 精品国产第一福利网站| 色偷偷色偷偷色偷偷在线视频| av一区在线| 亚洲欧美日韩国产一区二区| 日韩欧美久久| 国产伊人久久| 在线日韩一区| 亚洲综合色婷婷在线观看| 久久激情av| 国产在线看片免费视频在线观看| 色婷婷精品视频| 欧美专区一区二区三区| 国产日韩欧美一区二区三区| 国产在线观看91一区二区三区| 日韩精品水蜜桃| 视频在线在亚洲| 久久国产视频网| 国产一区二区三区网| 欧美+亚洲+精品+三区| 亚洲资源网站| 国产一区精品福利| 伊人久久成人| 国产日韩免费| 久久精品青草| 爽爽淫人综合网网站| 国产精品一区二区三区av| 日韩精品中文字幕第1页| 三级一区在线视频先锋| 麻豆久久久久久| 亚洲二区在线| 日韩激情综合| а√天堂中文在线资源8| 国产农村妇女精品一二区| 国产毛片久久久| 久久久国产精品一区二区中文| 免费国产亚洲视频| 精品视频久久| 综合激情视频| 日韩在线综合| 日韩精品亚洲专区| 美女网站视频一区| 日韩精品一区二区三区免费视频| 在线中文字幕播放| 亚洲精品伊人| 天堂√中文最新版在线| 蜜桃av一区二区三区电影| 精品99在线| 国产亚洲毛片在线| 岛国精品一区| 日韩精品视频一区二区三区| 日韩成人亚洲| 国产精品资源| 国产亚洲精品久久久久婷婷瑜伽| 久久wwww| 亚洲一区有码| 成人在线网站| 国产精品任我爽爆在线播放| 99成人在线| 在线看片福利| 国产精品一区二区三区www| 亚洲综合国产| 五月激情久久|