文章詳情頁

Python爬蟲之必備chardet庫

瀏覽：2日期：2022-06-20 16:24:43

一、chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道，在爬取不同的網頁時，返回結果會出現亂碼的情況。比如，在爬取某個中文網頁的時候，有的頁面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些頁面，知道網頁編碼很重要的。

雖然HTML頁面有charset標簽，但是有些時候是不對的，那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現字符串/文件的編碼檢測。

如果你安裝過Anaconda，那么可以直接使用chardet庫。如果你只是安裝了Python的話，就需要使用下面幾行代碼，完成chardet庫的安裝。

pip install chardet

接著，使用下面這行代碼，導入chardet庫。

import chardet二、chardet庫的使用

這個小節，我們分3部分講解。

2.1 chardet.detect()函數

detect()函數接受一個參數，一個非unicode字符串。它返回一個字典，其中包含自動檢測到的字符編碼和從0到1的可信度級別。

encoding：表示字符編碼方式。 confidence：表示可信度。 language：語言。

光看這個解釋，大多數朋友可能看不懂，下面我們就用例子來講述這個函數。

2.2 使用該函數分別檢測gbk、utf-8和日語

檢測gbk編碼的中文：

str1 = ’大家好，我是黃同學’.encode(’gbk’)chardet.detect(str1)chardet.detect(str1)['encoding']

結果如下：

Python爬蟲之必備chardet庫

檢測的編碼是GB2312，注意到GBK是GB2312的父集，兩者是同一種編碼，檢測正確的概率是99%，language字段指出的語言是’Chinese’。

檢測utf-8編碼的中文：

str2 = ’我有一個夢想’.encode(’utf-8’)chardet.detect(str2)chardet.detect(str2)['encoding']

結果如下：

Python爬蟲之必備chardet庫

檢測一段日文：

str3 = ’ありがとう’.encode(’euc-jp’)chardet.detect(str3)chardet.detect(str3)

結果如下：

Python爬蟲之必備chardet庫

2.3 如何在“爬蟲”中使用chardet庫呢？

我們以百度網頁為例子，進行講述。

Python爬蟲之必備chardet庫

這個網頁的源代碼，使用的是什么編碼呢？我們看看源代碼：

Python爬蟲之必備chardet庫

從圖中可以看到，是utf-8字符編碼。

如果不使用chardet庫，獲取網頁源代碼的時候，怎么指定字符編碼呢？

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)response.encoding = 'utf-8'response.text

結果如下：

Python爬蟲之必備chardet庫

你會發現：正確指定編碼后，沒有亂碼。如果你將編碼改為gbk，再看看結果。此時已經亂碼。

Python爬蟲之必備chardet庫

如果使用chardet庫，獲取網頁源代碼的時候，可以輕松指定字符編碼！

結果如下：

Python爬蟲之必備chardet庫

編碼不用我們自己查找，也不用猜，直接交給chardet庫去猜測，正確率還高。

到此這篇關于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關Python chardet庫內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：Python collections模塊的使用技巧下一條：Python+uiautomator2實現手機鎖屏解鎖功能

相關文章：

1. Django視圖類型總結2. Xml簡介_動力節點Java學院整理3. Intellij IDEA 關閉和開啟自動更新的提示?4. Ajax引擎 ajax請求步驟詳細代碼5. 解析原生JS getComputedStyle6. idea重置默認配置的方法步驟7. IntelliJ IDEA Java項目手動添加依賴 jar 包的方法(圖解)8. Django使用HTTP協議向服務器傳參方式小結9. intellij idea設置統一JavaDoc模板的方法詳解10. Spring @Profile注解實現多環境配置

排行榜

					
					Intellij IDEA 關閉和開啟自動更新的提示?
Xml簡介_動力節點Java學院整理
Django視圖類型總結
使用Docker的NFS-Ganesha鏡像搭建nfs服務器的詳細過程
intellij idea設置統一JavaDoc模板的方法詳解
解析原生JS getComputedStyle
Ajax引擎 ajax請求步驟詳細代碼
Django使用HTTP協議向服務器傳參方式小結
IntelliJ IDEA Java項目手動添加依賴 jar 包的方法(圖解)
Spring @Profile注解實現多環境配置
idea重置默認配置的方法步驟