文章詳情頁
python - 正則表達式匹配html的問題。
瀏覽:167日期:2022-09-05 14:29:29
問題描述
<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內容 #需要抓取的內容</dd>用BeautifulSoup html.parser解析的網頁,現在用re模塊想抓取**第7行**的中文內容,放在一個組里面(.*?)。正則老是匹配不上,用換行符也匹配不上,不知道怎么寫了。。。
問題解答
回答1:既然你都用bs4解析了,為什么不用它提取哪?bs4內有一個stripped_string的函數正好滿足你的需要。
回答2:import repattern = re.compile(r’</span>.*?</span>(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內容 #需要抓取的內容</dd>’’’print(pattern.search(str).group(1))===> 中文內容 #需要抓取的內容回答3:
const re = /^</span>(.*)</dd>$/
這樣可以不?
相關文章:
1. javascript - immutable配合react提升性能?2. javascript - sublime快鍵鍵問題3. javascript - nodejs關于進程間發送句柄的一點疑問4. Apache 已經把網站根目錄的改為allow from all了,但是服務器還是不能訪問?5. 實現bing搜索工具urlAPI提交6. javascript - 移動端上不能實現拖拽布局嗎?7. vue.js - Vue 如何像Angular.js watch 一樣監聽數據變化8. phpstudy8.1支持win11系統嗎?9. 配置Apache時,添加對PHP的支持時語法錯誤10. css - 寫頁面遇到個布局問題,求大佬們幫解答,在線等,急!~
排行榜

網公網安備