日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

詳解用Python把PDF轉為Word方法總結

瀏覽:202日期:2022-06-21 09:15:48

先講一下為啥要寫這個文章,網(wǎng)上其實很多這種PDF轉化的代碼和軟件。我一直想用Python做,但是網(wǎng)上搜到的代碼很多都不能用,很多是2.7版本的代碼,再就是PDF需要用到的庫在導入的時候,很多的報錯,解決起來特別費勁,而且自從2021年初以來,似乎網(wǎng)上很少有關PDF轉化的代碼出現(xiàn)了。我在研究了很多代碼和pdfminer的用法后,總結了幾個方法,目前這幾種方法可以解決大多數(shù)格式的轉化,后面我也專門放了提取PDF表格的代碼,文末有高效的免費在線工具推薦。

下面這個是我最最推薦的方法 ,簡單高效 ,只要是標準PDF文檔,里面的圖片和表格都可以保留格式

詳解用Python把PDF轉為Word方法總結

# pip install pdf2docx #安裝依賴庫from pdf2docx import Converterpdf_file = r’C:UsersAdministratorDesktop新建文件夾mednine.pdf’docx_file = r’C:UsersAdministratorDesktopPython教程02.docx’# convert pdf to docxcv = Converter(pdf_file)cv.convert(docx_file, start=0, end=None)cv.close()下面是另外三種常用方法

1 把標準格式的PDF轉為Word,測試環(huán)境Python3.6.5和3.6.6(注意PDF內容僅僅是文字為主的里面沒有圖片圖表的適用,不適合掃描版PDF,因為那只能用圖片識別的方式進行)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfpage import PDFPagefrom io import StringIOimport sysimport stringfrom docx import Documentdef convert_pdf_2_text(path): rsrcmgr = PDFResourceManager() retstr = StringIO()device = TextConverter(rsrcmgr, retstr, codec=’utf-8’, laparams=LAParams()) interpreter = PDFPageInterpreter(rsrcmgr, device)with open(path, ’rb’) as fp:for page in PDFPage.get_pages(fp, set()): interpreter.process_page(page) #print(retstr.getvalue()) text = retstr.getvalue() device.close() retstr.close() return textdef pdf2txt(): text=convert_pdf_2_text(path) with open(’real.txt’,’a’,encoding=’utf-8’) as f:for line in text.split(’n’): f.write(line+’n’)def remove_control_characters(content): mpa = dict.fromkeys(range(32)) return content.translate(mpa) def save_text_to_word(content, file_path): doc = Document() for line in content.split(’’):print(line) paragraph = doc.add_paragraph()paragraph.add_run(remove_control_characters(line)) doc.save(file_path)if __name__ == ’__main__’: path = r’C:UsersmaynDesktop程序臨時培訓教材.pdf’ # 你自己的pdf文件路徑及文件名 不適合掃描版 只適合標準PDF文件 text = convert_pdf_2_text(path) save_text_to_word(text, ’output.doc’) #PDF轉為word方法 #pdf2txt() #PDF轉為txt方法

2專門提取PDF里面的表格,使用pdfplumber適合標準格式的PDF

import pdfplumberimport pandas as pdimport timefrom time import ctimeimport psutil as ps #import threadingimport gcpdf = pdfplumber.open(r'C:UsersAdministratorDesktop新建文件夾mednine.pdf')N=len(pdf.pages)print(’總共有’,N,’頁’)def pdf2exl(i): # 讀取了第i頁,第i頁是有表格的, print(’********************************************************************************************************************************************************’) print(’正在輸出第’,str(i+1),’頁表格’) print(’********************************************************************************************************************************************************’) p0 = pdf.pages[i] try:table = p0.extract_table()print(table) df = pd.DataFrame(table[1:], columns=table[0]) #print(df)df.to_excel(r'C:UsersAdministratorDesktop新建文件夾Model'+str(i+1)+'.xlsx') #df.info(memory_usage=’deep’) except Exception as e:print(’第’+str(i+1)+’頁無表格,或者檢查是否存在表格’) pass #print(’目前內存占用率是百分之’,str(ps.virtual_memory().percent),’ 第’,str(i+1),’頁輸出完畢’) print(’**********************************************************************************************************************************************************’) print(’nnn’) time.sleep(5)def dojob1(): #此函數(shù) 直接循環(huán)提取PDF里面各個頁面的表格 print(’*********************’) for i in range(0,N):pdf2exl(i)

3也可以提取PDF里面的表格,使用camelot(camelot的安裝可能需要點耐心,反正用的人不多)

import camelotimport wand# 從PDF文件中提取表格def output(i): #print(tables) #for i in range(5): tables = camelot.read_pdf(r’C:UsersAdministratorDesktop新建文件夾mednine.pdf’, pages=str(i), flavor=’stream’) print(tables[i]) # 表格數(shù)據(jù) print(tables[i].data)tables[i].to_csv(r’C:UsersAdministratorDesktop新建文件夾002’+str(i)+r’.csv’)def plotpdf():# 這個是畫pdf 結構的函數(shù) 現(xiàn)在不能用 不要打開#print(tables[0]) tables = camelot.read_pdf(r’C:UsersmaynDesktopvcode工作區(qū)11路基.pdf’, pages=’200’, flavor=’stream’) camelot.plot(tables[0], kind=’text’) print(tables[0]) plt.show() # 繪制PDF文檔的坐標,定位表格所在的位置 #plt = camelot.plot(tables[0],kind=’text’) #plt.show() #table_df = tables[0].df#plotpdf() #i=3#output(i)for i in range(0,2): try: output(i) except Exception as e:print(’第’+str(i)+’頁沒找到表格啊啊啊’)pass continue

以下是pdfplumber測試效果

源文件如下

詳解用Python把PDF轉為Word方法總結

提取結果

詳解用Python把PDF轉為Word方法總結

最后補充2個免費轉換的網(wǎng)站感覺還比較好用,關鍵是免費

http://pdfdo.com/pdf-to-word.aspx

http://app.xunjiepdf.com/pdf2word/

到此這篇關于詳解用Python把PDF轉為Word方法總結的文章就介紹到這了,更多相關Python把PDF轉為Word內容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)!

標簽: python
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
久久电影一区| 99国产精品久久久久久久| 亚洲一区免费| 美女国产一区| 日本va欧美va精品发布| 日韩av午夜在线观看| 欧美黄页在线免费观看| 国产网站在线| 日韩亚洲国产欧美| 日韩精品一页| 精品免费av| 日韩一级精品| 国产欧美一区二区色老头| 精品女同一区二区三区在线观看| 国产成人黄色| 欧美sm一区| 国产亚洲永久域名| 国产亚洲久久| 91精品久久久久久久久久不卡| 日韩精品电影| 一区二区亚洲视频| 精品视频亚洲| 亚洲三级国产| av日韩中文| 88久久精品| 99久久亚洲精品蜜臀| 午夜电影一区| 特黄特色欧美大片| 美女精品一区二区| 亚洲欧美成人综合| 国产精品v亚洲精品v日韩精品| 欧美在线观看视频一区| 欧美精品观看| 欧美日韩免费观看视频| 欧美性www| 国产精品88久久久久久| 精品视频黄色| 蜜臀国产一区二区三区在线播放 | 91国内精品| 一级欧洲+日本+国产| 国产一区二区视频在线看| 亚洲理论在线| 在线一区免费| 国产精品久久久久久久久久10秀| 亚洲日本国产| 免费精品视频| 国产免费成人| 久久福利一区| 日韩一级精品| 樱桃成人精品视频在线播放| 日韩久久电影| 亚洲综合电影| 日韩大片免费观看| 精品国产黄a∨片高清在线| 欧美天堂一区| 国产亚洲一区二区三区不卡| 亚洲欧美网站在线观看| 蜜臀久久99精品久久久久久9 | 久久理论电影| 欧美日韩视频网站| 日韩久久一区二区三区| 久久久国产精品一区二区中文| av综合电影网站| 国产亚洲一卡2卡3卡4卡新区| 亚洲精品黄色| 日韩不卡一二三区| 国产精品美女午夜爽爽| 久久久91麻豆精品国产一区| 国产福利亚洲| 国产精品13p| 亚洲一级高清| 日韩影院在线观看| 欧美日韩va| 日韩欧美一区二区三区在线观看| 欧美日韩国产一区二区三区不卡| 亚洲激情黄色| 欧美日韩视频免费看| 成人小电影网站| 久久高清国产| 国产aa精品| 老鸭窝毛片一区二区三区| 日韩av黄色在线| аⅴ资源天堂资源库在线| 一区福利视频| 欧美欧美黄在线二区| 久久国产精品久久w女人spa| 成人啊v在线| 日本不卡在线视频| 日韩免费在线| 欧美在线日韩| 国产精品videossex久久发布| 98精品久久久久久久| 亚洲免费毛片| 裤袜国产欧美精品一区| 免费精品视频最新在线| 国产精品成人a在线观看| 亚洲激情久久| 欧美国产另类| 久久午夜精品一区二区| 婷婷视频一区二区三区| 97精品国产| 国产精品毛片视频| 丝袜美腿一区二区三区| 精品视频在线观看网站| 日本中文字幕视频一区| 伊人成人网在线看| 日韩国产激情| 国产一区精品福利| 欧美日本三区| 亚洲最大av| 亚洲一区二区三区四区五区午夜| 麻豆理论在线观看| 国产伊人久久| 久久精品色播| 久久99蜜桃| 国产精品一区免费在线| 日韩精品一区二区三区中文| 亚洲深夜影院| 美女少妇全过程你懂的久久| 91av亚洲| 在线天堂资源www在线污| 国产一区二区三区日韩精品| 欧美亚洲一区二区三区| 日韩高清国产一区在线| 亚洲精品综合| 日韩av中文在线观看| 日韩精品欧美成人高清一区二区| 热久久免费视频| 日韩av影院| 激情中国色综合| 欧美aaaaaa午夜精品| 久久97久久97精品免视看秋霞| 欧美激情久久久久久久久久久| 国产欧美日韩影院| 免费亚洲一区| www.51av欧美视频| 欧美粗暴jizz性欧美20| 日韩午夜高潮| 日韩欧美四区| 麻豆精品蜜桃视频网站| 亚洲精品在线影院| 久久亚洲影院| 另类小说一区二区三区| 1000部精品久久久久久久久| 亚洲一区二区小说| 日韩av中文字幕一区| 国产66精品| 久久av一区| 国产精品66| 欧美/亚洲一区| 国产乱子精品一区二区在线观看| 成人三级高清视频在线看| 91久久国产| 国产剧情一区| 99国内精品| 色婷婷亚洲mv天堂mv在影片| 久色成人在线| 亚洲天堂av影院| 日本午夜精品久久久| 91精品国产福利在线观看麻豆| 99热精品在线观看| 日韩av自拍| 国产精品综合| 亚洲专区视频| 国产国产精品| 国产精品毛片久久| 国产精品一区三区在线观看| aa亚洲婷婷| 日韩在线短视频| 久草精品视频| 日本91福利区| 亚洲精品在线国产| 亚洲黄色在线| 久久中文字幕二区| 成人日韩av| 国产图片一区| 亚洲ww精品| 综合激情视频| 爽爽淫人综合网网站| 香蕉久久99| 神马日本精品| 久久精品高清| 日韩国产网站| sm捆绑调教国产免费网站在线观看| 欧美日韩1区2区3区| 亚洲尤物av| 日韩精品1区2区3区| 日韩av一区二区在线影视| 亚洲久久一区| 久久激情综合网| 亚洲精品精选| 日韩激情av在线| 国产精品亚洲欧美一级在线| 国产精品自在| 国产成人精品999在线观看| 超级白嫩亚洲国产第一| 欧美一区三区| 在线看片一区| 国产日韩欧美一区二区三区 | 亚洲一区欧美|