文章詳情頁

詳解Python中的編碼問題（encoding與decode、str與bytes）

瀏覽：6日期：2022-07-09 13:46:00

1 引言

在文件讀寫及字符操作時，我們經常會出現下面這幾種錯誤：

TypeError: write() argument must be str, not bytes AttributeError: ’URLError’ object has no attribute ’code’ UnicodeEncodeError: ’gbk’ codec can’t encode character ’xa0’ inposition 5747: illegal multibyte sequence

這些錯誤一看就是編碼問題，本篇博文總結一下Python3文件讀寫及字符操作中的編碼。

2 編碼發展史

（1）ASCII編碼

眾所周知，計算機只能處理0和1，任何符號都轉換為0和1的序列才能處理。計算機中8個位（bit）作為一個字節，所以1個字節能產生2的8次方個0和1的不同組合，也就是說1個字節做多能表示256種字符。ASCII編碼就是用1個字節來存儲字符，計算機最初是美國人發明的，他們的符號不多，所以還將8個0和1序列中的第一位固定為0，ASCII只能表示127個字符。

（2）GB2312編碼

美國佬的符號不多，所以ASCII編碼夠用，但是其他國家就不行了，每個國家符號數量都不一樣，就各自指定了自己的編碼。例如我們中國就制定了GB2312編碼。GB2312編碼用2個字節表示一個字符。

（3）Unicode編碼

每個國家都用自己的編碼，編碼一朵就容易亂套，也沒法交流，所以需要一種編碼把各個國家的編碼都囊括進去，這就是Unicode編碼的由來。所以，Unicode也被稱為萬國碼。Unicode編碼也用2個字節存儲一個字符。

（4）utf-8編碼

Unicode編碼解決了編碼不能通用的問題，但是卻容易浪費內存，尤其是在存儲英文的時候，例如一個字符“A”，ASCII編碼只需要1個字節就夠，但是Unicode編碼必須要用2個字節。為了解決這一問題，就有了utf-8編碼。 utf-8編碼把存儲英文依舊用一個字節，漢字就3個字節。特別是生僻的編程4-6字節，如果傳輸大量英文，utf-8作用就很明顯了。utf-8編碼進行存儲時有極大地優勢，但是當讀取到計算機內存時卻不大合適，因為utf-8編碼是變長的，不方便尋址和索引，所以在計算機內存中，還是轉化為Unicode編碼合適些。這就可以解釋為什么每次讀取文本時，要將編碼轉化為Unicode編碼，而將內存中的字符寫入文件存儲時，要將編碼轉化為utf-8了。

3 str與bytes

在Python3中，文本總是為Unicode編碼，在類型上為str類，也就是說Python編譯器只會把Unicode編碼下的二進制流顯示為我們可識別的符號。二進制流在Python中也有一個專門的類用于表示這種二進制序列，那就是bytes（在Python中這個二進制序列顯示為16進制，但本質還是二進制）。一個str在不同的編碼下就可以轉化為不同的bytes（二進制流），反之，要將bytes轉化為可識別的str就必須用對應的編碼，否則就會報錯。

用人類語言類比一下：我們要表達“吃飯”這件事物（str），翻譯為各個國家的文字后有各不相同的表示，中文表示為“吃飯”，英文表示為“eat”，這就是“吃飯”這個str在不同編碼寫的表示。但官方只認中文（Pythonstr只認Unicode編碼），所以就必須把“eat”用英語（編碼）的表示方式轉化為中文的“吃飯”（Unicode編碼），官方才會顯示知道是吃飯這件事。

>>> s = ’吃飯’>>> type(s)<class ’str’>>>> s1 = s.encode(encoding=’utf-8’)>>> type(s1)<class ’bytes’>>>> s1b’xe5x90x83xe9xa5xad’>>> s2 = s.encode(encoding=’gb2312’)>>> type(s2)<class ’bytes’> >>> s2b’xb3xd4xb7xb9’>>> s1.decode(’utf-8’)’吃飯’>>> s2.decode(’gb2312’)’吃飯’

詳解Python中的編碼問題（encoding與decode、str與bytes）

4 文件編碼

在python 3 中字符是以Unicode的形式存儲的，當然這里所說的存儲是指存儲在計算機內存當中，如果是存儲在硬盤里，Python 3的字符是以bytes形式存儲，也就是說如果要將字符寫入硬盤，就必須對字符進行encode。對上面這段話再解釋一下，如果要將str寫入文件，如果以‘w’模式寫入，則要求寫入的內容必須是str類型；如果以‘wb’形式寫入，則要求寫入的內容必須是bytes類型。文章開頭出現的幾種錯誤，就是因為寫入模式與寫入內容的數據類型不匹配造成的。

s1 = ’你好’#如果是以‘w’的方式寫入，寫入前一定要進行encoding，否則會報錯 with open(’F:1.txt’,’w’,encoding=’utf-8’) as f1: f1.write(s1)s2 = s1.encode('utf-8')#轉換為bytes的形式#這時候寫入方式一定要是‘wb’，且一定不能加encoding參數with open(’F:2.txt’,’wb’) as f2: f2.write(s2)

有的人會問，我在系統里面用文本編輯器打開以bytes形式寫入的2.txt文件，發現里面顯示的是‘你好’，而不是‘b’xe4xbdxa0xe5xa5xbd’’，因為文本文檔打開2.txt時，系統會用合適的編碼將其顯示為對應的符號，然后才給你看到。

5 網頁編碼

網頁編碼和文件編碼方法差不多，如下urlopen下載下來的網頁read()且用decoding(‘utf-8’)解碼，那就必須以‘w’的方式寫入文件。如果只是read()而不用encoding(‘utf-8’)進行編碼，一定要以‘wb’方式寫入：以‘w’方式寫入時：

response= url_open(’http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ’ ,timeout=5 )#自定義的一個網頁下載函數#此處以UTF-8方式進行解碼，解碼后的數據以unicode的方式存儲在html中html = response.read().decode(’UTF-8’)print(type(html))#輸出結果：<class ’str’>#這時寫入方式一定要加encoding,以encoding# 即UTF-8的方式對二進制數據進行編碼才能寫入with open(’F:DownloadAppDatahtml.txt’,'w' , encoding=’UTF-8’) as f: f.write(html)

以‘wb’方式寫入：

response= url_open(’http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ’ ,timeout=5 )html = response.read()#此處不需要進行解碼，下載下來print(type(html))#輸出結果：<class ’bytes’>with open(’F:DownloadAppDatahtml.txt’,'wb' ) as f: f.write(html)

如果要在Python3中，對urlopen下載下來的網頁進行字符操作（例如正則匹配、lxml提取），就必須decode成Unicode。

作者：奧辰

微信號：chb1137796095

Github：https://github.com/ChenHuabin321

歡迎加V交流，共同學習，共同進步！

以上就是詳解Python中的編碼問題（encoding與decode、str與bytes）的詳細內容，更多關于python 編碼的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python Matplotlib數據可視化（1）：簡單入門下一條：python 生成器需注意的小問題

相關文章：

1. 讀大數據量的XML文件的讀取問題2. ASP刪除img標簽的style屬性只保留src的正則函數3. 利用CSS3新特性創建透明邊框三角4. 解析原生JS getComputedStyle5. css代碼優化的12個技巧6. ASP實現加法驗證碼7. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁8. PHP循環與分支知識點梳理9. ASP基礎入門第三篇(ASP腳本基礎)10. JSP+Servlet實現文件上傳到服務器功能

排行榜

					
					django從后臺返回html代碼的實例
python實現線性回歸算法
Docker容器如何更新打包并上傳到阿里云
idea設置自動導入依賴的方法步驟
ASP.NET MVC使用異步Action的方法
利用CSS3新特性創建透明邊框三角
Django結合使用Scrapy爬取數據入庫的方法示例
PHP循環與分支知識點梳理
ASP基礎入門第三篇(ASP腳本基礎)
ASP刪除img標簽的style屬性只保留src的正則函數
ASP實現加法驗證碼