日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python解析PDF程序代碼

瀏覽:29日期:2022-06-16 11:18:41
說在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環境中安裝PDFminer3k,不要裝錯了,一開始我裝的是PDFminer,結果有幾個包不能用pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3# -*- coding:utf-8 -*-# pip3 install pdfminer3kimport osfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevicedef read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name, 'w', encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i, page in enumerate(doc.get_pages(), 1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results)if __name__ == ’__main__’: # 獲取讀取文件夾 filePath = ’../PDFfile’ #遍歷文件夾 for i,j,k in os.walk(filePath):for m in k: # 格式化輸出的名稱和地址 result = ’../TextFile/’ + m[:-4] + ’.txt’ # 格式化源文件路徑 fileName = i + ’/’ + m # 調用函數解析 read_pdf(fileName, result)

參考以下代碼內容:python 讀取pdf文本內容

#!/usr/bin/env python3#-*- coding:utf-8 -*-# pip3 install pdfminer3k from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevice def read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name,'w',encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i,page in enumerate(doc.get_pages(),1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results) if __name__ == ’__main__’: pdf_name = ’test.pdf’ result = ’test.txt’ read_pdf(pdf_name, result)

以上就是python解析PDF的詳細內容,更多關于python解析PDF的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
久久在线电影| 一区在线观看| 精品一区在线| 四虎在线精品| 不卡在线一区| 91av亚洲| 麻豆精品久久| 婷婷精品久久久久久久久久不卡| 国产综合色区在线观看| 国产精品v一区二区三区| 日韩欧美在线精品| 最新国产精品| aa亚洲婷婷| 午夜国产精品视频免费体验区| 日韩大片免费观看| 先锋影音久久久| 欧美日韩精品一区二区三区在线观看| 日本伊人久久| 免费在线观看一区| 国产日产一区| 国产精品亚洲欧美一级在线| 久久精品凹凸全集| 欧美日韩xxxx| 青草久久视频| 国产日韩欧美一区在线| 欧美日韩a区| 国产精品久久久久久久久久10秀 | 日韩av资源网| 红杏一区二区三区| 好看的av在线不卡观看| 日韩精品导航| 国模大尺度视频一区二区| 欧美精品一区二区久久| 日本欧美一区二区| 中文字幕在线视频网站| 中文在线日韩| 国产精品亚洲欧美日韩一区在线| 国产福利一区二区精品秒拍| 国产精品最新自拍| 美女av一区| 精精国产xxxx视频在线播放 | 亚洲黄色网址| 日韩精品一区二区三区免费观看| 久久久精品午夜少妇| 久久国产亚洲精品| 国产亚洲网站| 日韩欧美美女在线观看| 麻豆国产91在线播放| 在线一区av| 免费观看久久av| 日本成人手机在线| 欧美激情麻豆| 久久精品亚洲人成影院| 亚洲免费在线| 国产午夜久久av| 国产精品亚洲一区二区在线观看| 91亚洲自偷观看高清| 亚洲国产一区二区在线观看| 日韩高清欧美激情| 91亚洲人成网污www| 水蜜桃久久夜色精品一区的特点| 国产日韩精品视频一区二区三区| 日韩精品不卡一区二区| 妖精视频成人观看www| 久久激情综合网| 色爱av综合网| 深夜日韩欧美| 91精品韩国| 日韩1区2区日韩1区2区| 国产精品精品| 精品一区免费| 亚洲综合日韩| 国产经典一区| 免费av一区| 国产精品一页| 国内精品福利| 麻豆一区二区三| 美女久久一区| 国产成人精品一区二区免费看京 | 国产偷自视频区视频一区二区| 欧美日本精品| 国产一区二区中文| 国产精品欧美日韩一区| 99久久视频| 国产精品多人| 蜜臀av在线播放一区二区三区| 97精品在线| 久久国产生活片100| 蜜桃视频欧美| 久久电影tv| 久久国产麻豆精品| 国产亚洲精品久久久久婷婷瑜伽| 国产精品99一区二区三区| 亚洲毛片在线| 欧美日韩四区| 亚洲精品在线影院| 精品淫伦v久久水蜜桃| 免费看欧美美女黄的网站| 伊人久久国产| 国产九一精品| 青青草视频一区| 中文日韩在线| 蜜桃av在线播放| 久久这里只有精品一区二区| 麻豆9191精品国产| 国产精品日韩| 欧美综合二区| 亚洲1区在线| 国产精品视频3p| 日韩成人高清| 国产在线观看91一区二区三区 | 国产一区三区在线播放| 91成人精品在线| 性色av一区二区怡红| 色婷婷久久久| 日韩不卡在线| 日韩高清中文字幕一区二区| 国产精品不卡| 日韩av有码| 久久这里只有| 精品国产亚洲一区二区三区大结局| 日韩成人精品一区二区三区 | 国产精一区二区| 欧美日韩精品一区二区三区视频| 亚洲精品国模| 日本不卡在线视频| 综合五月婷婷| 国产亚洲观看| 新版的欧美在线视频| 日韩一区二区免费看| 色爱av综合网| 影院欧美亚洲| 老色鬼久久亚洲一区二区| 亚洲综合三区| 少妇精品久久久| 日韩激情一区二区| 在线日韩成人| 日本久久一区| 国产精品一区亚洲| 国产专区精品| 日韩不卡在线| 在线亚洲一区| 蜜臀va亚洲va欧美va天堂 | 国产日韩欧美三区| 麻豆久久久久久| 毛片在线网站| 亚洲精品一二三区区别| 久久高清精品| 在线综合亚洲| 日韩激情网站| 久久久久97| 国产一区日韩欧美| 另类亚洲自拍| 视频在线在亚洲| 日韩亚洲精品在线观看| 国产精品日韩精品在线播放| 国产白浆在线免费观看| 91精品精品| 日韩1区2区3区| 精品久久福利| 欧美在线亚洲| 国产免费av一区二区三区| 精品无人区麻豆乱码久久久| 韩国精品主播一区二区在线观看| 99国产成+人+综合+亚洲欧美| 亚洲1区在线观看| 丰满少妇一区| 久久成人亚洲| 六月丁香综合在线视频| 1024精品一区二区三区| 日韩精品一区二区三区中文字幕| 久久精品国产99国产| 国产综合激情| 欧美日本不卡| 黄色日韩在线| 国产精品尤物| 午夜久久99| 国产欧美一区二区三区国产幕精品| 日韩综合在线| 亚洲激情另类| 欧美黄页在线免费观看| 国产亚洲毛片| 精品国产乱码久久久久久樱花| 欧洲激情综合| 欧美aaaaaa午夜精品| 久久一二三区| 成人三级高清视频在线看| 中文字幕一区二区av| 日本不良网站在线观看| 蜜臀a∨国产成人精品| а√在线中文在线新版| 中文字幕成人| 四虎884aa成人精品最新| 日韩不卡一二三区| 91精品国产成人观看| 国产一级成人av| 99在线观看免费视频精品观看| 国产日韩中文在线中文字幕| 欧美肉体xxxx裸体137大胆| 日韩av中文字幕一区二区|