日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python實現過濾敏感詞

瀏覽:211日期:2022-06-20 11:47:26
簡述:

關于敏感詞過濾可以看成是一種文本反垃圾算法,例如 題目:敏感詞文本文件 filtered_words.txt,當用戶輸入敏感詞語,則用 星號 * 替換,例如當用戶輸入「北京是個好城市」,則變成「**是個好城市」 代碼:

#coding=utf-8def filterwords(x): with open(x,’r’) as f:text=f.read() print text.split(’n’) userinput=raw_input(’myinput:’) for i in text.split(’n’):if i in userinput: replace_str=’*’*len(i.decode(’utf-8’)) word=userinput.replace(i,replace_str) return wordprint filterwords(’filtered_words.txt’)

再例如反黃系列:

開發敏感詞語過濾程序,提示用戶輸入評論內容,如果用戶輸入的內容中包含特殊的字符:敏感詞列表 li = ['蒼老師','東京熱',”武藤蘭”,”波多野結衣”]則將用戶輸入的內容中的敏感詞匯替換成***,并添加到一個列表中;如果用戶輸入的內容沒有敏感詞匯,則直接添加到上述的列表中。content = input(’請輸入你的內容:’)li = ['蒼老師','東京熱','武藤蘭','波多野結衣']i = 0while i < 4: for li[i] in content:li1 = content.replace(’蒼老師’,’***’)li2 = li1.replace(’東京熱’,’***’)li3 = li2.replace(’武藤蘭’,’***’)li4 = li3.replace(’波多野結衣’,’***’) else:pass i += 1

python實現過濾敏感詞

實戰案例:

一道bat面試題:快速替換10億條標題中的5萬個敏感詞,有哪些解決思路? 有十億個標題,存在一個文件中,一行一個標題。有5萬個敏感詞,存在另一個文件。寫一個程序過濾掉所有標題中的所有敏感詞,保存到另一個文件中。

1、DFA過濾敏感詞算法

在實現文字過濾的算法中,DFA是比較好的實現算法。DFA即Deterministic Finite Automaton,也就是確定有窮自動機。 算法核心是建立了以敏感詞為基礎的許多敏感詞樹。 python 實現DFA算法:

# -*- coding:utf-8 -*-import timetime1=time.time()# DFA算法class DFAFilter(): def __init__(self):self.keyword_chains = {}self.delimit = ’x00’ def add(self, keyword):keyword = keyword.lower()chars = keyword.strip()if not chars: returnlevel = self.keyword_chainsfor i in range(len(chars)): if chars[i] in level:level = level[chars[i]] else:if not isinstance(level, dict): breakfor j in range(i, len(chars)): level[chars[j]] = {} last_level, last_char = level, chars[j] level = level[chars[j]]last_level[last_char] = {self.delimit: 0}breakif i == len(chars) - 1: level[self.delimit] = 0 def parse(self, path):with open(path,encoding=’utf-8’) as f: for keyword in f:self.add(str(keyword).strip()) def filter(self, message, repl='*'):message = message.lower()ret = []start = 0while start < len(message): level = self.keyword_chains step_ins = 0 for char in message[start:]:if char in level: step_ins += 1 if self.delimit not in level[char]:level = level[char] else:ret.append(repl * step_ins)start += step_ins - 1breakelse: ret.append(message[start]) break else:ret.append(message[start]) start += 1return ’’.join(ret)if __name__ == '__main__': gfw = DFAFilter() path='F:/文本反垃圾算法/sensitive_words.txt' gfw.parse(path) text='新疆騷亂蘋果新品發布會?八' result = gfw.filter(text) print(text) print(result) time2 = time.time() print(’總共耗時:’ + str(time2 - time1) + ’s’)

運行效果:

新疆騷亂蘋果新品發布會?八****蘋果新品發布會**總共耗時:0.0010344982147216797s

2、AC自動機過濾敏感詞算法

AC自動機:一個常見的例子就是給出n個單詞,再給出一段包含m個字符的文章,讓你找出有多少個單詞在文章里出現過。 簡單地講,AC自動機就是字典樹+kmp算法+失配指針

# -*- coding:utf-8 -*-import timetime1=time.time()# AC自動機算法class node(object): def __init__(self):self.next = {}self.fail = Noneself.isWord = Falseself.word = ''class ac_automation(object): def __init__(self):self.root = node() # 添加敏感詞函數 def addword(self, word):temp_root = self.rootfor char in word: if char not in temp_root.next:temp_root.next[char] = node() temp_root = temp_root.next[char]temp_root.isWord = Truetemp_root.word = word # 失敗指針函數 def make_fail(self):temp_que = []temp_que.append(self.root)while len(temp_que) != 0: temp = temp_que.pop(0) p = None for key,value in temp.next.item():if temp == self.root: temp.next[key].fail = self.rootelse: p = temp.fail while p is not None:if key in p.next: temp.next[key].fail = p.fail breakp = p.fail if p is None:temp.next[key].fail = self.roottemp_que.append(temp.next[key]) # 查找敏感詞函數 def search(self, content):p = self.rootresult = []currentposition = 0while currentposition < len(content): word = content[currentposition] while word in p.next == False and p != self.root:p = p.fail if word in p.next:p = p.next[word] else:p = self.root if p.isWord:result.append(p.word)p = self.root currentposition += 1return result # 加載敏感詞庫函數 def parse(self, path):with open(path,encoding=’utf-8’) as f: for keyword in f:self.addword(str(keyword).strip()) # 敏感詞替換函數 def words_replace(self, text):''':param ah: AC自動機:param text: 文本:return: 過濾敏感詞之后的文本'''result = list(set(self.search(text)))for x in result: m = text.replace(x, ’*’ * len(x)) text = mreturn textif __name__ == ’__main__’: ah = ac_automation() path=’F:/文本反垃圾算法/sensitive_words.txt’ ah.parse(path) text1='新疆騷亂蘋果新品發布會?八' text2=ah.words_replace(text1) print(text1) print(text2) time2 = time.time() print(’總共耗時:’ + str(time2 - time1) + ’s’)

運行結果:

新疆騷亂蘋果新品發布會?八****蘋果新品發布會**總共耗時:0.0010304450988769531s

以上就是python實現過濾敏感詞的詳細內容,更多關于python 過濾敏感詞的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日本免费久久| 日韩va亚洲va欧美va久久| 黄色网一区二区| 国产成人精品免费视| 成人在线网站| 福利在线免费视频| 在线国产日韩| 亚洲欧洲av| 日本午夜精品久久久久| 亚洲开心激情| 日韩超碰人人爽人人做人人添| 日韩手机在线| 国产精品地址| 成人在线视频中文字幕| av在线日韩| 秋霞影院一区二区三区| 欧美综合另类| 爽好多水快深点欧美视频| 综合激情一区| 日本va欧美va精品| 久久精品国产成人一区二区三区| 国产v日韩v欧美v| 国产一区清纯| 亚洲人亚洲人色久| 麻豆视频久久| 青青久久av| 三级欧美韩日大片在线看| 日韩欧美精品一区二区综合视频| 欧美视频精品全部免费观看| 久久天堂影院| 日韩精品91| 99成人在线| 久久国产乱子精品免费女| 精品三级国产| 999久久久国产精品| 视频一区视频二区中文字幕| 日韩av资源网| 国产成人77亚洲精品www| 99精品视频精品精品视频| 国产精品日韩| 国产欧美自拍| 久久蜜桃精品| 日本午夜精品一区二区三区电影 | 在线天堂中文资源最新版| 日本蜜桃在线观看视频| 亚洲视频www| 国产精品欧美三级在线观看| 日本国产精品| 日韩精品乱码av一区二区| 精品美女久久| 一本一本久久| 久久精品国产网站| 欧美日韩精品免费观看视频完整| 日本99精品| 久久要要av| 青青草精品视频| 国产精品久久久久av电视剧| 日韩在线一区二区| 麻豆一区二区三| 欧美亚洲国产精品久久| 欧美久久亚洲| 精品一区三区| 国产精品**亚洲精品| 精品在线91| 麻豆成人91精品二区三区| 日韩一级精品| 国产日韩电影| 日韩免费久久| 日本一不卡视频| 美国三级日本三级久久99| 国产综合精品| 天堂8中文在线最新版在线| 国产精品1区在线| 久久精品xxxxx| 免费日韩视频| 91久久久精品国产| 色婷婷久久久| 五月天av在线| 黄色在线观看www| 你懂的网址国产 欧美| 日韩欧美高清一区二区三区| 免费看的黄色欧美网站| 亚洲深夜av| 欧美日韩国产欧| 欧美日韩国产在线观看网站| 日韩成人高清| 欧洲精品一区二区三区| 午夜久久av | 麻豆精品久久久| 中文字幕亚洲在线观看| 久久夜夜操妹子| 麻豆精品久久久| 欧美精品国产一区| 蜜臀久久99精品久久久画质超高清 | 日韩视频一区| 高潮一区二区| 精品视频一区二区三区四区五区| 视频一区在线视频| 欧美特黄一级| 久久精品官网| 国产日韩电影| 日韩1区在线| 久久精品三级| 国产精品香蕉| 欧美在线观看天堂一区二区三区| 欧美中文字幕| av不卡在线看| 蜜臀91精品国产高清在线观看| а√天堂8资源在线| 老牛国内精品亚洲成av人片| 国产欧美一区二区精品久久久 | 成人看片网站| 国产夫妻在线| 福利在线一区| 国产精品久久久亚洲一区| 日韩精品一级二级| 一本色道精品久久一区二区三区| 四虎影视精品| | 日本欧美不卡| 成人在线黄色| 成人亚洲一区二区| 久久精品五月| 国产一区二区三区四区二区| 欧美成人一二区| 欧美aa在线视频| 精品国产美女a久久9999| 精品视频一区二区三区四区五区| 久久不见久久见中文字幕免费| 欧美日韩a区| 国产视频一区二区在线播放| 欧美日韩精品一区二区三区视频 | 久久香蕉网站| 国产不卡人人| 91精品一区二区三区综合| 久久久久久夜| 午夜久久中文| 久久久亚洲一区| 亚洲精品91| 国产精品毛片| 亚洲2区在线| 国产亚洲精品精品国产亚洲综合| 婷婷五月色综合香五月| 欧美亚洲综合视频| 免费日韩一区二区三区| 精品一区二区三区在线观看视频 | 欧美 日韩 国产精品免费观看| 婷婷精品进入| 亚洲性视频在线| 国产精品视频一区二区三区四蜜臂| 91福利精品在线观看| 国产精品啊啊啊| 日韩成人综合| 激情综合在线| 日韩亚洲精品在线观看| 老司机免费视频一区二区| 精品一区二区三区的国产在线观看| 国产一区日韩| 92国产精品| 免费在线看一区| 久久成人av| 91精品一区国产高清在线gif| 久久都是精品| 久久国内精品| 涩涩av在线| 日韩精品一级二级| 欧美aⅴ一区二区三区视频| 999国产精品视频| 日韩精品高清不卡| 成人在线超碰| 在线亚洲国产精品网站| 日精品一区二区三区| 久久伊人久久| 久久久久久久久丰满| 久久精品国产大片免费观看| 亚洲开心激情| 国产suv精品一区二区四区视频| 久久久久久久久99精品大| 快she精品国产999| 麻豆精品新av中文字幕| 亚洲电影在线| 国产91久久精品一区二区| 91伊人久久| 国产高清久久| 久久这里只有| 鲁大师影院一区二区三区| 国产精品hd| 国产精品美女久久久| 精品久久91| 亚洲青青久久| 成人一二三区| 日韩毛片网站| 日韩中文首页| 日本欧美一区二区| 欧美成人基地 | 亚洲久久视频| 午夜久久中文| 日本国产亚洲| 欧美中文一区二区| 国产精品xvideos88|