python - pandas讀取中文的時(shí)候亂碼 要如何解決?
問(wèn)題描述
下載了一份新浪微博的數(shù)據(jù),但是原始數(shù)據(jù)是用csv的,在mac上沒(méi)辦法直接打開(kāi),讀取的時(shí)候,也會(huì)錯(cuò)誤,會(huì)出現(xiàn)
UnicodeDecodeError: ’utf-8’ codec can’t decode byte 0x84 in position 36: invalid start byte
然后自己google,發(fā)現(xiàn)read_csv(’file’, encoding = 'ISO-8859-1') 這樣的時(shí)候讀取不會(huì)有錯(cuò)
但是讀取進(jìn)來(lái)發(fā)現(xiàn)是這樣的:
中文全部
然后測(cè)試了read_csv(’file’, encoding = 'gbk')read_csv(’file’, encoding = 'utf8')read_csv(’file’, encoding = 'gb18030')總之就是各種不行~基本的情況如下:
UnicodeDecodeError: ’gb18030’ codec can’t decode byte 0xaf in position 12: incomplete multibyte sequence
有大神遇到類似的情況嗎?
有大神說(shuō)要數(shù)據(jù) 因?yàn)楸容^大,熱心的人可以看看 不過(guò)我覺(jué)得挺有用的下面是微博的數(shù)據(jù)鏈接:http://pan.baidu.com/s/1jHCOwCI 密碼:x58f
補(bǔ)充一下代碼吧~上面隨意一個(gè)文件下載下來(lái)(是csv格式的)然后用pandas打開(kāi)就會(huì)出錯(cuò)~
import pandasdf = pandas.read_csv('week1.csv')
問(wèn)題解答
回答1:給代碼和原數(shù)據(jù)
你寫(xiě)點(diǎn)能代碼+有代表性的數(shù)據(jù) 即可,別搞幾G的大數(shù)據(jù)阿~
誰(shuí)看啊?
回答2:跟你一樣的情況,試了很多編碼仍然沒(méi)有用,但是看數(shù)據(jù)用UTF8編碼的話,有的數(shù)據(jù)能轉(zhuǎn)換成功,所以我暫時(shí)能想到的辦法就是用open去按行讀取,如果出現(xiàn)編碼轉(zhuǎn)換錯(cuò)誤就丟掉,這樣下來(lái)數(shù)據(jù)量其實(shí)也不少
回答3:你也可以試試用cp1252。最好的方法是先通過(guò)chardet包(https://pypi.python.org/pypi/...)看文件具體上用什么encoding。
回答4:試過(guò)了沒(méi)有問(wèn)題呀,我猜想應(yīng)該是你環(huán)境編碼問(wèn)題吧,可以嘗試一下以下代碼
#coding=utf-8import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.read_csv(’week1.csv’, encoding=’utf-8’, nrows=10)print df
相關(guān)文章:
1. javascript - sublime快鍵鍵問(wèn)題2. javascript - immutable配合react提升性能?3. css - 寫(xiě)頁(yè)面遇到個(gè)布局問(wèn)題,求大佬們幫解答,在線等,急!~4. javascript - nodejs關(guān)于進(jìn)程間發(fā)送句柄的一點(diǎn)疑問(wèn)5. Apache 已經(jīng)把網(wǎng)站根目錄的改為allow from all了,但是服務(wù)器還是不能訪問(wèn)?6. 實(shí)現(xiàn)bing搜索工具urlAPI提交7. 配置Apache時(shí),添加對(duì)PHP的支持時(shí)語(yǔ)法錯(cuò)誤8. vue.js - Vue 如何像Angular.js watch 一樣監(jiān)聽(tīng)數(shù)據(jù)變化9. javascript - 移動(dòng)端上不能實(shí)現(xiàn)拖拽布局嗎?10. phpstudy8.1支持win11系統(tǒng)嗎?

網(wǎng)公網(wǎng)安備