日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python jieba庫的基本使用

瀏覽:63日期:2022-06-26 10:53:55
一、jieba庫概述

jieba是優(yōu)秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個的詞語 jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需要掌握一個函數(shù) 二、jieba庫安裝

pip install jieba三、jieba分詞的原理

jieba分詞依靠中文詞庫

利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率 漢字間概率大的組成詞組,形成分詞結(jié)果 四、jieba分詞的3種模式 精確模式:把文本精確地切分開,不存在冗余單詞(最常用) 全模式:把文本中所有可能的詞語都掃描出來,有冗余 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分 五、jieba庫常用函數(shù)

函數(shù) 描述 jieba.lcut(s) 精確模式,返回一個列表類型的分詞結(jié)果 jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結(jié)果,存在冗余 jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結(jié)果,存在冗余 jieba.lcut(s) 精確模式,返回一個列表類型的分詞結(jié)果 jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut('中國是一個偉大的國家')[’中國’, ’是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut('中國是一個偉大的國家', cut_all=True)[’中國’, ’國是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut_for_search('中華人民共和國是偉大的')[’中華’, ’華人’, ’人民’, ’共和’, ’共和國’, ’中華人民共和國’, ’是’, ’偉大’, ’的’]六、文本詞頻示例

問題分析

英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

中文文本: 《三國演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText(): # 打開 hamlet.txt 這個文件 txt = open('hamlet.txt', 'r').read() # 避免大小寫對詞頻統(tǒng)計的干擾,將所有單詞轉(zhuǎn)換為小寫 txt = txt.lower() # 將文中出現(xiàn)的所有特殊字符替換為空格 for ch in ’|'#$%^&*()_+-=`~{}[];:<>?/’: txt = txt.replace(ch, ' ') # 返回一個所以后單詞都是小寫的,單詞間以空格間隔的文本 return txthamletTxt = getText()# split() 默認使用空格作為分隔符words = hamletTxt.split()counts = {}for word in words: counts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(10): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據(jù)單詞出現(xiàn)的次數(shù)進行排序,其中使用了 lambda 函數(shù)。更多解釋請看:https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統(tǒng)計《三國演義》中任務(wù)出場的次數(shù):

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運行結(jié)果:

曹操 953孔明 836將軍 772卻說 656玄德 585關(guān)公 510丞相 491二人 469不可 440荊州 425玄德曰 390孔明曰 390不能 384如此 378張飛 358

我們可以看到得出的結(jié)果與我們想象的有些差異,比如

“卻說”、“二人”等與人名無關(guān) “諸葛亮”、“孔明”都是同一個人 “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優(yōu)化,在詞頻統(tǒng)計的基礎(chǔ)上,面向問題改造我們的程序。

下面是《三國演義》人物數(shù)量統(tǒng)計代碼的升級版,升級版中對于某些確定不是人名的詞,即使做了詞頻統(tǒng)計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()excludes = {'將軍','卻說','荊州','二人','不可','不能','如此'}words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue elif word == '諸葛亮' or word == '孔明曰': rword == '孔明' elif word == '關(guān)公' or word == '云長': rword == '關(guān)羽' elif word == '玄德' or word == '玄德曰': rword == '劉備' elif word == '孟德' or word == '丞相': rword == '曹操' else: rword = word counts[rword] = counts.get(rword, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運行結(jié)果:

曹操 963孔明 847張飛 366商議 359如何 352主公 340軍士 320呂布 303左右 298軍馬 297趙云 283劉備 282引兵 279次日 278大喜 274

可以看出還是有像“商議”、“如何”等不是人物的詞出現(xiàn)在統(tǒng)計結(jié)果,我們將這些詞加入到 excludes 中,多次運行程序后最后得到《三國演義》任務(wù)出場順序前20:

七、文本詞頻統(tǒng)計問題舉一反三

應(yīng)用問題擴展

《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統(tǒng)計它的任務(wù)出場次數(shù) 政府工作報告、科研論文、新聞報道...中出現(xiàn)的大量的詞頻進行分析,進而找到每篇文章的重點內(nèi)容 進一步,對文本的詞語或詞匯繪制成詞云,使其展示的效果更加直觀

以上內(nèi)容資料均來源于中國大學(xué)MOOC網(wǎng)-北京理工大學(xué)Python語言程序設(shè)計課程課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內(nèi)容,更多關(guān)于python jieba庫的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产亚洲综合精品| 国产亚洲一区二区手机在线观看 | 久久电影tv| 国产成人精品一区二区三区免费 | 国产精品88久久久久久| 午夜欧美理论片| 欧美日韩四区| 黄色国产精品| 老色鬼久久亚洲一区二区| 香蕉成人久久| 日韩激情网站| 亚洲精品少妇| 日韩激情一区二区| 亚洲人成网站在线在线观看| 蜜臀久久久99精品久久久久久| 欧美专区18| 亚洲精品女人| 国产精品欧美三级在线观看| 国产专区精品| 久久国产亚洲| 午夜在线精品偷拍| 欧美在线精品一区| 精品三级在线| 国产综合精品| 深夜福利一区| 欧美国产免费| 久久视频国产| 亚洲精品国产精品粉嫩| 欧美一区免费| 国产自产自拍视频在线观看| 欧美在线亚洲综合一区| 亚洲日本国产| 麻豆国产精品一区二区三区| 日韩在线观看| 免费观看在线综合色| 久久黄色影视| 欧美日韩尤物久久| 亚洲精品一级| 91综合视频| 日韩视频精品在线观看| 日韩成人精品一区二区三区 | 国产成人精品一区二区三区视频 | 国产91精品对白在线播放| 美女久久网站| 精品中文在线| 国产精品腿扒开做爽爽爽挤奶网站| 日韩av一区二区三区四区| 色一区二区三区四区| 久久亚洲二区| 精品一区不卡| 三级在线观看一区二区 | 麻豆久久久久久久| 久久av日韩| 亚洲国内精品| 国产乱论精品| 99热精品久久| 国产精品sss在线观看av| 久久免费黄色| 97久久亚洲| 99久久99久久精品国产片果冰| 亚洲精品美女91| 日韩欧美视频专区| 综合日韩在线| 欧美日韩视频网站| 日韩三级一区| 99精品电影| 国产精品啊啊啊| 在线国产一区| 国产一区2区在线观看| 亚洲另类黄色| 久久亚洲成人| 精品一区在线| 成人羞羞视频播放网站| 一二三区精品| 欧美羞羞视频| 国产亚洲一区| 老司机久久99久久精品播放免费| 精品不卡一区| 欧美日韩亚洲三区| 免费久久99精品国产| 亚洲播播91| 国产精品白丝一区二区三区| 人在线成免费视频| 日韩有吗在线观看| 国产亚洲一区二区手机在线观看| 91成人精品在线| 欧美日韩在线网站| 久久99国产精品视频| 一二三区精品| 欧美日韩激情在线一区二区三区| 精品网站aaa| 日本少妇精品亚洲第一区| 嫩呦国产一区二区三区av| 日本久久一区| 免费观看在线综合| 羞羞答答国产精品www一本| 91精品国产调教在线观看| 久久国内精品视频| 日韩欧美中文字幕电影| 久久电影一区| 九色精品91| 蜜桃精品在线| 国产精品高颜值在线观看| 欧美日本二区| 日韩中文字幕| 亚洲精品影视| 美国三级日本三级久久99 | 亚洲一区二区小说| 亚洲二区在线| 欧美一区二区三区高清视频| 亚洲天堂1区| 久久久夜夜夜| 人人精品亚洲| 视频在线在亚洲| 老司机精品久久| 热久久国产精品| 影音先锋久久精品| 日韩精品一级中文字幕精品视频免费观看 | 国产探花一区| 日本成人在线视频网站| 日本中文字幕一区二区视频 | 亚洲一区二区三区高清| 亚洲深爱激情| 在线亚洲自拍| 免费成人av在线播放| 亚洲精品影视| 日韩精品一区二区三区中文在线| 亚洲影院天堂中文av色| 国产偷自视频区视频一区二区| 午夜日韩在线| 六月天综合网| 亚洲综合福利| 青青青国产精品| 国产精品日本一区二区不卡视频| 国产精品资源| 国产成人调教视频在线观看| а√天堂8资源中文在线| 国产在线|日韩| 午夜日韩在线| 蜜臀久久久99精品久久久久久| 日韩三级视频| 国产欧美三级| 91偷拍一区二区三区精品| 中文字幕人成乱码在线观看| 99久久九九| 欧美中文日韩| 欧美一区成人| 精品国产精品国产偷麻豆| 久久电影tv| 亚洲免费观看| 91av一区| 国产精品高颜值在线观看| 久久精品国产www456c0m| 欧美日韩激情在线一区二区三区| av成人国产| 日韩精品欧美成人高清一区二区| 国产欧美日韩在线观看视频| 久久久久久色| 国产欧美一区二区三区米奇| 精品国产中文字幕第一页| 日韩在线观看不卡| 丝袜脚交一区二区| 国产乱码精品一区二区三区四区 | 三级精品视频| 伊人成人在线视频| 日韩高清中文字幕一区| 精品高清久久| 亚洲综合精品四区| 久久国产生活片100| 正在播放日韩精品| 免费美女久久99| 久久久久伊人| 伊人精品在线| 久久av综合| 午夜精品免费| 国产精品xxx在线观看| 激情久久五月| 日本亚洲视频| 色88888久久久久久影院| 国精品一区二区| 日韩精品欧美大片| 久久网站免费观看| 久久网站免费观看| 亚洲精品一级| 爽好多水快深点欧美视频| 免费成人av在线播放| 福利视频一区| 麻豆91精品视频| 日韩毛片一区| 国产精品a级| 亚洲免费观看| 国产一区二区三区四区二区| 欧美日韩国产一区二区三区不卡| 日韩高清一级| 精品三级av在线导航| 久热综合在线亚洲精品| 荡女精品导航| 亚洲日韩中文字幕一区| 欧美日韩视频网站| 国产精品一区二区av交换|