文章詳情頁(yè)

Python jieba結(jié)巴分詞原理及用法解析

瀏覽：53日期：2022-07-06 11:58:45

1、簡(jiǎn)要說(shuō)明

結(jié)巴分詞支持三種分詞模式，支持繁體字，支持自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非常快，但是不能解決歧義

精簡(jiǎn)模式：把句子最精確的分開(kāi)，不會(huì)添加多余單詞，看起來(lái)就像是把句子分割一下

搜索引擎模式：在精簡(jiǎn)模式下，對(duì)長(zhǎng)詞再度切分

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’我去北京天安門廣場(chǎng)跳舞’ a = jieba.lcut(str1, cut_all=True) # 全模式 print(’全模式:{}’.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print(’搜索引擎模式:{}’.format(c))

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

3、某個(gè)詞語(yǔ)不能被分開(kāi)

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) # 如果不把桃花俠分開(kāi) jieba.add_word(’桃花俠’) d = jieba.lcut(str1) # 默認(rèn)是精簡(jiǎn)模式 print(d)

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

4、某個(gè)單詞必須被分開(kāi)

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: # HMM參數(shù)，默認(rèn)為True ’’’HMM 模型，即隱馬爾可夫模型（Hidden Markov Model, HMM），是一種基于概率的統(tǒng)計(jì)分析模型，用來(lái)描述一個(gè)系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。在 jieba 中，對(duì)于未登錄到詞庫(kù)的詞，使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法，其大致原理是：采用四個(gè)隱含狀態(tài)，分別表示為單字成詞，詞組的開(kāi)頭，詞組的中間，詞組的結(jié)尾。通過(guò)標(biāo)注好的分詞訓(xùn)練集，可以得到 HMM 的各個(gè)參數(shù)，然后使用 Viterbi 算法來(lái)解釋測(cè)試集，得到分詞結(jié)果。 ’’’ str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡(jiǎn)模式，且不使用HMM模型 print(’精簡(jiǎn)模式:{}’.format(b)) # 分開(kāi)大戰(zhàn)為大和戰(zhàn) jieba.suggest_freq((’大’, ’戰(zhàn)’), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print(’分開(kāi):{}’.format(e))

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python Pandas數(shù)據(jù)分析工具用法實(shí)例下一條：Python根據(jù)字符串調(diào)用函數(shù)過(guò)程解析

相關(guān)文章：

1. js實(shí)現(xiàn)碰撞檢測(cè)2. 一文帶你徹底理解Java序列化和反序列化3. JS實(shí)現(xiàn)前端動(dòng)態(tài)分頁(yè)碼代碼實(shí)例4. 關(guān)于IDEA 2020.3 多窗口視圖丟失的問(wèn)題5. PHP驗(yàn)證碼工具－Securimage6. 用Spring JMS使異步消息變得簡(jiǎn)單7. 通過(guò)實(shí)例解析Python文件操作實(shí)現(xiàn)步驟8. Python3 json模塊之編碼解碼方法講解9. Python 制作查詢商品歷史價(jià)格的小工具10. Python 解析庫(kù)json及jsonpath pickle的實(shí)現(xiàn)

排行榜

					
					一文帶你徹底理解Java序列化和反序列化
用Spring JMS使異步消息變得簡(jiǎn)單
關(guān)于IDEA 2020.3 多窗口視圖丟失的問(wèn)題
PHP驗(yàn)證碼工具－Securimage
js實(shí)現(xiàn)碰撞檢測(cè)
JS實(shí)現(xiàn)前端動(dòng)態(tài)分頁(yè)碼代碼實(shí)例
Android 簡(jiǎn)單的實(shí)現(xiàn)滑塊拼圖驗(yàn)證碼功能
Java源碼解析之SortedMap和NavigableMap
ASP.NET MVC使用jQuery ui的progressbar實(shí)現(xiàn)進(jìn)度條
Django 模板中常用的過(guò)濾器實(shí)現(xiàn)
Java 生成隨機(jī)驗(yàn)證碼圖片的示例