日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

使用python處理一萬份word表格簡歷操作

瀏覽:148日期:2022-06-25 09:46:20
前言

有一天朋友A向我抱怨,他的老板要求他把幾百份word填好的word表格簡歷信息整理到excel中,看著他一個個將姓名,年齡……從word表格里復制粘貼到excel里,邊粘貼心里邊暗暗詛咒著自己的boss……但畢竟新手小白,又不能違背老板的意愿說我不干了,愛咋咋地,于是過來向我求助。我說,這事情好辦啊,學學python就能解決啊,簡單容易上手。好了,接下來進入正題。

思路:首先針對每一份word表格進行分析

使用python處理一萬份word表格簡歷操作

怎么才能利用python獲取到word表格里面的信息,最初的想法是把word里面的表格轉成網頁格式,畢竟混跡爬蟲淺水區多年,用正則表達式處理網頁來獲取信息是比較輕松的,于是想到把word轉成網頁格式,這么一想,整個人都瘋了,幾百份文件打開然后轉成網頁,那也有不少勞動量啊。于是在網上搜了許久,發現docx文件自己本身是壓縮文件,打開壓縮包之后竟然發現里面有個專門存儲word里面文本的文件。

使用python處理一萬份word表格簡歷操作

打開文件找,發現我們想要的信息全都藏在這個名為document.xml的文件里

使用python處理一萬份word表格簡歷操作

于是基本過程就可以確定了

1. 打開docx的壓縮包

2. 獲取word里面的正文信息

3. 利用正則表達式匹配出我們想要的信息

4. 將信息存儲到txt中(txt可以用excel打開)

5. 批量調用上述過程,完成一萬份簡歷的提取工作

6. (檢查數據是否有錯誤或缺失)

0x01 獲取docx信息

利用python的zipfile庫以及re庫來處理docx壓縮包里面的document.xml文件里的信息。

import zipfileimport redef get_document(filepath): z = zipfile.ZipFile(filepath, 'r') text = z.read('word/document.xml').decode('UTF-8') text = re.sub(r'<.*?>', '', text)#去除xml里的所有標記符 ###如果多份簡歷在同一個word文件里### #table_list = text.split('XX簡歷')[1:]#依據簡歷標題切分每一份簡歷信息 #return table_list return text

打印text的結果

使用python處理一萬份word表格簡歷操作

自此,輸出了簡歷中的所有相關信息

0x02 抓取各字段值

接下來根據這些相關信息抓取各個字段的值

import redef get_field_value(text): value_list = [] m = re.findall(r'姓 名(.*?)性 別', table) value_list.append(m) m = re.findall(r'性 別(.*?)學 歷', table) value_list.append(m) m = re.findall(r'民 族(.*?)健康狀況', table) value_list.append(m) ’’’ 此處省略其他字段匹配 ’’’ return value_list

這樣就將每個字段匹配到的內容以一個列表的形式返回了

0x03 將內容寫入到文件

接下來將這個列表里的內容寫入到txt中

str1 = ''for value in value_list: str1 = str1 + str(value[0]) + 't'#每個字段值用制表符t分隔str1 = str1 + 'n'with open('result.txt', 'a+') as f:#將內容以追加形式寫入到result.txt中 f.write(str1)

以上是將一個word轉成了txt

只要再對文件夾中的文件進行批量處理就ok了

0x04 批量處理完整代碼

以下附上完整代碼

import reimport zipfileimport osdef get_document(filepath): z = zipfile.ZipFile(filepath, 'r') text = z.read('word/document.xml').decode('UTF-8') text = re.sub(r'<.*?>', '', text)#去除xml里的所有標記符 ###如果多份簡歷在同一個word文件里### table_list = text.split('XX簡歷')[1:]#依據簡歷標題切分每一份簡歷信息 return table_listdef get_field_value(text): value_list = [] m = re.findall(r'姓 名(.*?)性 別', table) value_list.append(m) m = re.findall(r'性 別(.*?)學 歷', table) value_list.append(m) m = re.findall(r'民 族(.*?)健康狀況', table) value_list.append(m) ’’’ 此處省略其他字段匹配 ’’’ return value_listcv_list = []for i in os.listdir(os.getcwd()): a = os.path.splitext(os.getcwd() + '' + i)#獲取當前目錄下所有文件的文件名 if a[1] == ’.docx’:#如果文件后綴 print(os.getcwd()+''+i) cv_list = cv_list + get_document(os.getcwd() + '' + i)#每份簡歷信息為一個列表元素for i in cv_list: value_list = get_field_value(i) str1 = '' for value in value_list: str1 = str1 + str(value[0]) + 't' str1 = str1 + 'n' with open('result.txt', 'a+') as f: f.write(str1)

一萬份word表格簡歷信息轉成了txt,然后用excel打開txt即可。

補充:python word表格一些操作

數據格式(datas): 列表套列表

aa =[ [1,2,3,4,5],[6,7,8,9],[]…]

import osimport requestsimport jsonimport datetimefrom docx import Documentfrom docx.shared import Inches, Pt, Cmfrom docx.oxml.ns import qnfrom docx.enum.text import WD_PARAGRAPH_ALIGNMENTdef create_insert_word_table(datas, stday, etday, s): '''創建word表格以及插入數據''' doc = Document() doc.styles[’Normal’].font.name = ’Calibri’ # 是用來設置當文字是西文時的字體, doc.styles[’Normal’]._element.rPr.rFonts.set(qn(’w:eastAsia’), u’宋體’) # 是用來設置當文字是中文時的字體 # doc.styles[’Normal’].font.size = Pt(14) # 設置所有文字字體大小為14 distance = Inches(0.5) sec = doc.sections[0] # sections對應文檔中的“節” sec.left_margin = distance # 以下依次設置左、右、上、下頁面邊距 sec.right_margin = distance sec.top_margin = distance sec.bottom_margin = distance sec.page_width = Inches(11.7) # 設置頁面寬度 # sec.page_height = Inches(9) # 設置頁面高度 # doc.add_heading() # 設置標題,但是不符合我的條件,只能試用下方p.add_run(’我是文字’) p = doc.add_paragraph() # 添加段落 p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER # 設置中央對齊 run = p.add_run(’我是文字’) run.font.size = Pt(22) doc.add_paragraph() # 添加空段落 # 添加表格 table = doc.add_table(rows=1, cols=10, style=’Table Grid’) table.style.name = ’Table Grid’ table.style.font.size = Pt(14) table.rows[0].height = Cm(20) title = table.rows[0].cells title[0].text = ’姓名’ title[1].text = ’1’ title[2].text = ’2’ title[3].text = ’3’ title[4].text = ’4’ title[5].text = ’5’ title[6].text = ’6 ’ title[7].text = ’7’ title[8].text = ’8’ title[9].text = ’9’ for i in range(len(datas)): cels = table.add_row().cells for j in range(len(datas[i])): # cels[j].text = str(datas[i][j]) p = cels[j].paragraphs[0] p.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER # 設置中央對齊 p.add_run(str(datas[i][j])) ph_format = p.paragraph_format # ph_format.space_before = Pt(10) # 設置段前間距 # ph_format.space_after = Pt(12) # 設置段后間距 ph_format.line_spacing = Pt(40) # 設置行間距 doc.save(’./files/項目總結.docx’)生成示例

使用python處理一萬份word表格簡歷操作

可能出現的錯誤,[Errno 13] Permission denied: ‘./files/項目進展總結.docx’

是因為你打開文件未關閉,操作不了,關閉他就好了

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持好吧啦網。如有錯誤或未考慮完全的地方,望不吝賜教。

標簽: python
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
中文字幕在线视频久| 模特精品在线| 一二三区精品| 亚洲主播在线| 日本一区免费网站| 国产亚洲久久| 国产精品久久久久9999高清| 欧美日韩一区二区国产 | 91久久中文| 免费视频久久| 亚洲精一区二区三区| 亚洲欧美在线专区| 欧美一区网站| 国产一区二区精品久| 日本午夜大片a在线观看| 亚洲国产日韩欧美在线| 日韩高清国产一区在线| 国产精品分类| 亚洲手机视频| 亚洲狼人精品一区二区三区| 国产精品永久| 久久久影院免费| 青青国产精品| av高清一区| 婷婷成人av| 麻豆视频在线观看免费网站黄| 欧美成a人免费观看久久| 久久亚洲美女| 日韩久久精品网| 在线一区二区三区视频| 精品国产精品国产偷麻豆| 美女网站一区| 欧美国产日韩电影| 91精品电影| 欧美日韩精品一区二区三区在线观看| 精品日产乱码久久久久久仙踪林| 在线日韩av| 三上亚洲一区二区| 婷婷亚洲精品| 亚洲精品电影| 欧美国产偷国产精品三区| 亚洲激情黄色| 久久天堂av| 黑森林国产精品av| 国产乱人伦精品一区| 久久国产高清| 久久在线免费| 日韩欧美一区二区三区在线观看 | 国产精品视频一区二区三区综合| 国产综合亚洲精品一区二| 麻豆一区在线| 国产伦一区二区三区| 亚洲毛片视频| 国产精品毛片在线| 免费毛片在线不卡| 神马午夜久久| 激情国产在线| 精品精品99| 激情国产在线| 国产超碰精品| 久久精品在线| 久久精品123| 久久99久久久精品欧美| 日韩激情中文字幕| 奇米777国产一区国产二区| 亚洲一区二区小说| 亚洲欧美在线专区| 日本一区免费网站| 亚洲一区二区av| 免费看日韩精品| 日本不卡高清视频| 国产欧美一区二区精品久久久 | 国产日韩电影| 久久中文视频| 99国产精品| 欧美一级精品| 巨乳诱惑日韩免费av| 在线看片日韩| 精品久久精品| 好吊视频一区二区三区四区| 91日韩欧美| 中国女人久久久| 日本一区二区三区视频在线看| 日本电影久久久| 久久精品一本| 欧美中文字幕一区二区| 亚洲一区二区小说| 成人免费一区| 男人天堂欧美日韩| 国产精品mm| 99精品视频在线观看免费播放| 午夜在线精品| 九九九精品视频| 激情五月综合| 国产精品久一| 性欧美xxxx免费岛国不卡电影| 女主播福利一区| 亚洲+小说+欧美+激情+另类| 久久免费影院| 免费成人性网站| 国产一区国产二区国产三区 | 国产亚洲精品自拍| 久久av网址| 国产美女一区| 中文字幕在线视频久| 日韩avvvv在线播放| 久久精品国产99久久| 国产日韩欧美一区在线| aⅴ色国产欧美| 欧美一区影院| 中文一区在线| 色婷婷综合网| **爰片久久毛片| 午夜在线一区| 四虎成人av| 久久精品xxxxx| 免费一区二区视频| 亚洲精品88| 精品日韩一区| 久久激情综合网| 中文亚洲欧美| 欧美一区二区三区激情视频 | 免费在线看一区| 久久精品影视| 伊人久久在线| 欧美日韩国产观看视频| 美女久久99| 日韩超碰人人爽人人做人人添| 在线成人直播| 欧美午夜精彩| 欧美综合另类| 免费黄色成人| 国产视频一区在线观看一区免费| 日韩深夜视频| 亚洲成av在线| 亚洲高清毛片| 日韩网站在线| 欧美+亚洲+精品+三区| 久久精品一区二区不卡| 日韩久久一区二区三区| 国产v综合v| 国产一区日韩欧美| 久久婷婷一区| 欧美日韩国产综合网| 亚洲激情欧美| 亚洲精品黄色| 麻豆91在线播放| 成人国产精品| 五月天激情综合网| 日韩专区欧美专区| 国产盗摄——sm在线视频| 日韩**一区毛片| 69堂精品视频在线播放| 蜜臀av性久久久久蜜臀aⅴ流畅| 快播电影网址老女人久久| 香蕉视频亚洲一级| 亚洲少妇在线| 国产欧美日韩影院| 成人亚洲一区二区| 国产精品日韩欧美一区| 日本一区二区三区中文字幕| 日韩亚洲精品在线观看| 精品国产一区二区三区性色av| 久久久久久久久99精品大| 热久久免费视频| 精品国产午夜| 亚洲一区网站| 91国内精品| 少妇久久久久| 国产日韩一区二区三免费高清 | 91综合视频| 亚洲人成精品久久久| 精品中文在线| 快she精品国产999| 国产一区丝袜| 日韩在线网址| 99久久婷婷| 欧美激情视频一区二区三区在线播放| 欧美三区四区| 欧美国产极品| 日韩视频久久| 成人在线免费观看网站| 亚洲专区视频| 午夜精品婷婷| 日韩精品91| 精品资源在线| 国产精品主播| 亚洲精品大全| 一区免费在线| 99久久激情| 特黄毛片在线观看| 国产欧美三级| 日韩高清在线不卡| 六月婷婷一区| 日韩午夜av| 99久久99久久精品国产片果冰| 久久久久97| 国产精品nxnn| 欧美黄页在线免费观看| 91在线成人|