日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

詳解python中文編碼問題

瀏覽:155日期:2022-06-16 10:41:41
目錄 1.在Python中使用中文1.1 Windows控制臺1.2 Windows IDLE(在Shell上運行)1.3 在IDLE上運行代碼 1.4 Windows Eclipse1.5 從文件讀取中文1.6 在數(shù)據(jù)庫中使用中文1.7 在XML中使用中文 1.在Python中使用中文

在Python中有兩種默認的字符串:str和unicode。在Python中一定要注意區(qū)分“Unicode字符串”和“unicode對象”的區(qū)別。后面所有的“unicode字符串”指的都是python里的“unicode對象”。

事實上在Python中并沒有“Unicode字符串”這樣的東西,只有“unicode”對象。一個傳統(tǒng)意義上的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節(jié)流,除非解碼為unicode對象,沒有任何實際的意義。

我們用“哈哈”在多個平臺上測試,其中“哈”對應的不同編碼是:

1. UNICODE (UTF8-16), C854;

2. UTF-8, E59388;

3. GBK, B9FE。

1.1 Windows控制臺

下面是在windows控制臺的運行結(jié)果:

詳解python中文編碼問題

可以看出在控制臺,中文字符的編碼是GBK而不是UTF-16。將字符串s(GBK編碼)使用decode進行解碼后,可以得到同等的unicode對象。

注意:可以在控制臺打印ss并不代表它可以直接被序列化,比如:

詳解python中文編碼問題

向文件直接輸出ss會拋出同樣的異常。在處理unicode中文字符串的時候,必須首先對它調(diào)用encode函數(shù),轉(zhuǎn)換成其它編碼輸出。這一點對各個環(huán)境都一樣。

總結(jié):在Python中,“str”對象就是一個字節(jié)數(shù)組,至于里面的內(nèi)容是不是一個合法的字符串,以及這個字符串采用什么編碼(gbk, utf-8, unicode)都不重要。這些內(nèi)容需要用戶自己記錄和判斷。這些的限制也同樣適用于“unicode”對象。要記住“unicode”對象中的內(nèi)容可絕對不一定就是合法的unicode字符串,我們很快就會看到這種情況。

總結(jié):在windows的控制臺上,支持gbk編碼的str對象和unicode編碼的unicode對象。

1.2 Windows IDLE(在Shell上運行)

在windows下的IDLE中,運行效果和windows控制臺不完全一致:

詳解python中文編碼問題

可以看出,對于不使用“u”作標識的字符串,IDLE把其中的中文字符進行GBK編碼。但是對于使用“u”的unicode字符串,IDLE居然一樣是用了GBK編碼,不同的是,這時候每一個字符都是unicode(對象)字符!!此時len(ss) = 4。

這樣產(chǎn)生了一個神奇的問題,現(xiàn)在的ss無法在IDLE中正常顯示。而且我也沒有辦法把ss轉(zhuǎn)換成正常的編碼!比如采用下面的方法:

詳解python中文編碼問題

這有可能是因為IDLE本地化做得不夠好,對中文的支持有問題。建議在IDLE的SHELL中,不要使用u“中文”這種方式,因為這樣得到的并不是你想要的東西。

這同時說明IDLE的Shell支持兩種格式的中文字符串:GBK編碼的“str”對象,和UNICODE編碼的unicode對象。

1.3 在IDLE上運行代碼

在IDLE的SHELL上運行文件,得到的又是不同的結(jié)果。文件的內(nèi)容是:

詳解python中文編碼問題

直接運行的結(jié)果是:

詳解python中文編碼問題

毫無瑕疵,相當令人滿意。我沒有試過其它編碼的文件是否能正常運行,但想來應該是不錯的。

同樣的代碼在windows的控制臺試演過,也沒有任何問題。

1.4 Windows Eclipse

在Eclipse中處理中文更加困難,因為在Eclipse中,編寫代碼和運行代碼屬于不同的窗口,而且他們可以有不同的默認編碼。對于如下代碼:

#!/usr/bin/python# -*- coding: utf-8 -*- s = '哈哈'ss = u’哈哈’ print repr(s)print repr(ss) print s.decode(’utf-8’).encode(’gbk’)print ss.encode(’gbk’) print s.decode(’utf-8’)print ss

前四個print運行正常,最后兩個print都會拋出異常:’/xe5/x93/x88/xe5/x93/x88’u’/u54c8/u54c8’哈哈哈哈Traceback (most recent call last): File 'E:/Workspace/Eclipse/TestPython/Test/test_encoding_2.py', line 13, in <module> print s.decode(’utf-8’)UnicodeEncodeError: ’ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)

也就是說,GBK編碼的str對象可以正常打印,但是不能打印UNICODE編碼的unicode對象。在源文件上點擊“Run as”“Run”,然后在彈出對話框中選擇“Common”:

詳解python中文編碼問題

可以看出Eclipse控制臺的缺省編碼方式是GBK;所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK,則可以直接打印GBK編碼的str對象,比如s。

如果把源文件的編碼設置成“UTF-8”,把控制臺的編碼也設置成“UTF-8”,按道理說打印的時候應該沒有問題。但是實驗表明,在打印UTF-8編碼的str對象時,中文的最后一個字符會顯示成亂碼,無法正常閱讀。不過我已經(jīng)很滿足了,至少人家沒有拋異常不是:)

BTW: 使用的Eclipse版本是3.2.1。

1.5 從文件讀取中文

在window下面用記事本編輯文件的時候,如果保存為UNICODE或UTF-8,分別會在文件的開頭加上兩個字節(jié) “/xFF/xFE” 和三個字節(jié)“/xEF/xBB/xBF”。在讀取的時候就可能會遇到問題,但是不同的環(huán)境對這幾個多于字符的處理也不一樣。

以windows下的控制臺為例,用記事本保存三個不同版本的“哈哈”。

詳解python中文編碼問題

打開utf-8格式的文件并讀取utf-8字符串后,解碼變成unicode對象。但是會把附加的三個字符同樣進行轉(zhuǎn)換,變成一個unicode字符,字符的數(shù)據(jù)值為“/xFF/xFE”。這個字符不能被打印。編碼的時候需要跳過這個字符。

詳解python中文編碼問題

打開unicode格式的文件后,得到的字符串正確。這時候適用utf-16解碼,能得到正確的unicdoe對象,可以直接使用。多余的那個填充字符在進行轉(zhuǎn)換時會被過濾掉。

詳解python中文編碼問題

打開ansi格式的文件后,沒有填充字符,可以直接使用。結(jié)論:讀寫使用python生成的文件沒有任何問題,但是在處理由notepad生成的文本文件時,如果該文件可能是非ansi編碼,需要考慮如何處理填充字符。

1.6 在數(shù)據(jù)庫中使用中文

剛剛接觸Python,我用的數(shù)據(jù)庫是mysql。在執(zhí)行插入、查找等操作時,如果運行環(huán)境使用的字符編碼和mysql不一致,就可能導致運行時的錯誤。當然,和上面看到的情況一樣,運行環(huán)境并不是關鍵因素,關鍵是查詢語句的編碼方式。如果在每次執(zhí)行查詢操作時都把查詢字符串做一次編碼轉(zhuǎn)換,轉(zhuǎn)變成mysql的默認字符編碼,一樣不會遇到問題。但是這樣寫代碼也太痛苦了吧。

使用如下代碼連接數(shù)據(jù)庫:

self.conn = MySQLdb.connect(use_unicode = 1, charset=’utf8’, **server)

我不能理解的是既然數(shù)據(jù)庫用的默認編碼是UTF-8,我連接的時候也用的是UTF-8,為什么查詢得到的文本內(nèi)容卻是UNICODE編碼(unicode對象)?這是MySQLdb庫的設置么?

1.7 在XML中使用中文

使用xml.dom.minidom和MySQLdb類似,對生成的dom對象調(diào)用toxml方法得到的是unicode對象。如果希望輸出utf-8文本,有兩種方法:

1.使用系統(tǒng)函數(shù)在輸出xml文檔的時候進行編碼,這是我覺得最好的方法。

xmldoc.toxml(encoding=’utf-8’)xmldoc.writexml(outfile, encoding = ‘utf-8’)

2.自己編碼生成

在使用toxml之后可以調(diào)用encode方法對文檔進行編碼。但這種方法無法得到合適的xml declaration(xml文檔第一行中的encoding部分)。不要嘗試通過xmldoc.createProcessingInstruction來創(chuàng)建一個processing instraction:

<?xml version=’1.0’ encoding=’utf-8’?>

xml declaration雖然看起來像是,但是事實上并不是一個processing instraction。可以通下面的方法得到一個滿意的xml文件:

print >> outfile, “<?xml version=’1.0’ encoding=’utf-8’?>”print >> outfile, xmldoc.toxml().encode(‘utf-8’)[22:]

其中第二行需要過濾掉在調(diào)用xmldoc.toxml時生成的“<?xml version=’1.0’ ?>”,它的長度是22。

相面是兩種方法的用法比較:

詳解python中文編碼問題

另外,在IDLE的shell中,不要用 u’中文’ 對屬性進行賦值。上面討論過,這樣得到的unicode字符串不正確。

到此這篇關于python中文編碼問題的文章就介紹到這了,更多相關中文編碼內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日韩在线短视频| 国产日韩一区二区三区在线播放| 黄色亚洲精品| 电影91久久久| 国产精品啊v在线| 欧美国产免费| 久久精品官网| 欧美午夜不卡影院在线观看完整版免费| 久久影院一区| 午夜在线精品| 蜜桃视频一区二区三区在线观看| 国产成人久久精品麻豆二区 | 精品一区三区| 久久婷婷国产| 伊人久久大香伊蕉在人线观看热v| 中文字幕中文字幕精品| 99久久www免费| 99精品电影| 电影天堂国产精品| 女同性一区二区三区人了人一 | 蜜臀va亚洲va欧美va天堂| 久久国产电影| 日韩视频久久| 乱人伦精品视频在线观看| 午夜欧美理论片| 日韩中文字幕1| 日韩高清电影一区| 日韩av免费| 丝袜av一区| 激情欧美亚洲| 视频二区不卡| 都市激情国产精品| 国产欧美自拍| 日韩中文字幕无砖| 国精品产品一区| 91欧美在线| 精品一区在线| 日韩精品欧美大片| 亚洲国内精品| 模特精品在线| 日韩不卡一区二区三区 | 国产精品一站二站| 精品一区二区三区的国产在线观看| 亚洲综合精品| 日韩精品免费一区二区夜夜嗨| 91亚洲成人| 日韩精品久久久久久| 国产激情久久| av资源中文在线天堂| 蜜桃成人av| 日本一区二区中文字幕| 成人一二三区| 亚洲图片久久| 国产麻豆精品| 色婷婷久久久| 日韩在线电影| 99精品网站| 亚洲精品在线国产| 电影91久久久| 蜜桃一区二区三区在线观看| 国产精品白丝一区二区三区| 久久激情一区| 久久精品99国产精品| 亚洲二区视频| 国产精品啊啊啊| av不卡免费看| 精品久久久中文字幕| 亚洲欧美日韩国产一区二区| 国产精品伦一区二区| 91久久国产| 欧美1区二区| 久久成人国产| 国产精品yjizz视频网| 亚洲精品乱码日韩| 亚洲深夜视频| 久久99久久久精品欧美| 在线人成日本视频| 日韩国产欧美在线视频| 亚洲91视频| 国产精品99久久久久久董美香| 日韩不卡免费视频| 捆绑调教日本一区二区三区| 少妇精品久久久| 秋霞影院一区二区三区| 国产免费av一区二区三区| 九色精品91| 成人影视亚洲图片在线| 日本不卡视频在线观看| 欧美性感美女一区二区| 国产精品欧美在线观看| 国产一区导航| 国产精品777777在线播放 | 青青国产精品| 97精品国产| 日韩欧美精品一区二区综合视频| 日韩激情综合| 久久男女视频| 福利一区二区三区视频在线观看| 日韩成人精品一区| 亚洲一级大片| 99久久99久久精品国产片果冰| 99在线|亚洲一区二区| 国产成人调教视频在线观看| 日韩精品一级| 亚洲视频www| 在线日韩av| 免费高潮视频95在线观看网站| 激情自拍一区| 精品久久一区| 国产精品久久久久久模特| 免费欧美在线视频| 午夜日韩在线| 蜜桃一区二区三区| 色老板在线视频一区二区| 国模精品一区| 久久三级中文| 国产精品www994| 国产亚洲一区二区三区啪| 一区二区电影| 久久av一区二区三区| 亚洲欧美日韩国产一区二区| 亚洲欧美久久| 丝袜美腿亚洲色图| 热久久久久久久| 老鸭窝亚洲一区二区三区| 在线亚洲免费| 亚洲一区久久| 国产一级久久| 最新亚洲国产| 日韩一二三区在线观看| 久久狠狠亚洲综合| 国产日韩在线观看视频| 你懂的网址国产 欧美| 国产精品羞羞答答在线观看| 国产精品调教视频| 久久伊人国产| 成人一二三区| 国产99久久| 亚洲精品1区2区| 免费人成网站在线观看欧美高清| 久久精品女人| 精品深夜福利视频| 黄色在线网站噜噜噜| 欧美二三四区| 婷婷激情综合| 亚洲中午字幕| 中文日韩在线| 亚洲一区不卡| 视频在线观看一区二区三区| 亚洲乱亚洲高清| 国产日韩欧美一区二区三区| 久久精品国产在热久久| sm捆绑调教国产免费网站在线观看| 久久国产精品亚洲77777| 国产精品普通话对白| 国产视频一区三区| 亚洲午夜国产成人| 国产毛片一区二区三区| 精品理论电影在线| 99久久亚洲精品蜜臀| 日韩午夜精品| 日韩精品欧美大片| 精品精品99| 久久久久中文| 一区视频在线| 日韩精品欧美大片| 国产一区二区三区四区二区| 久久中文字幕二区| 亚久久调教视频| 久久亚洲国产精品尤物| 精品日韩视频| 综合欧美亚洲| 精品资源在线| 精品中文一区| 日本成人在线网站| 日韩av片子| 亚洲一区亚洲| 国产精品nxnn| 久久精品亚洲欧美日韩精品中文字幕| 91麻豆精品| 国内精品亚洲| 中国女人久久久| 欧美成a人片免费观看久久五月天| 一区二区亚洲视频| 国产精品二区影院| 激情欧美一区| 国产探花一区二区| 日韩在线中文| 婷婷亚洲精品| 人在线成免费视频| 亚洲免费在线| 麻豆国产91在线播放| 成人av二区| 欧美片第1页综合| 香蕉久久99| 国产精品xxx在线观看| 9色精品在线| 黄色网一区二区| 亚洲精品国产日韩| 日韩精品电影|