国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python爬蟲之必備chardet庫

瀏覽:2日期:2022-06-20 16:24:43
一、chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道,在爬取不同的網頁時,返回結果會出現亂碼的情況。比如,在爬取某個中文網頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網頁編碼很重要的。

雖然HTML頁面有charset標簽,但是有些時候是不對的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現字符串/文件的編碼檢測。

如果你安裝過Anaconda,那么可以直接使用chardet庫。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。

pip install chardet

接著,使用下面這行代碼,導入chardet庫。

import chardet二、chardet庫的使用

這個小節,我們分3部分講解。

2.1 chardet.detect()函數

detect()函數接受一個參數,一個非unicode字符串。它返回一個字典,其中包含自動檢測到的字符編碼和從0到1的可信度級別。

encoding:表示字符編碼方式。 confidence:表示可信度。 language:語言。

光看這個解釋,大多數朋友可能看不懂,下面我們就用例子來講述這個函數。

2.2 使用該函數分別檢測gbk、utf-8和日語

檢測gbk編碼的中文:

str1 = ’大家好,我是黃同學’.encode(’gbk’)chardet.detect(str1)chardet.detect(str1)['encoding']

結果如下:

Python爬蟲之必備chardet庫

檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正確的概率是99%,language字段指出的語言是’Chinese’。

檢測utf-8編碼的中文:

str2 = ’我有一個夢想’.encode(’utf-8’)chardet.detect(str2)chardet.detect(str2)['encoding']

結果如下:

Python爬蟲之必備chardet庫

檢測一段日文:

str3 = ’ありがとう’.encode(’euc-jp’)chardet.detect(str3)chardet.detect(str3)

結果如下:

Python爬蟲之必備chardet庫

2.3 如何在“爬蟲”中使用chardet庫呢?

我們以百度網頁為例子,進行講述。

Python爬蟲之必備chardet庫

這個網頁的源代碼,使用的是什么編碼呢?我們看看源代碼:

Python爬蟲之必備chardet庫

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫,獲取網頁源代碼的時候,怎么指定字符編碼呢?

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)response.encoding = 'utf-8'response.text

結果如下:

Python爬蟲之必備chardet庫

你會發現:正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結果。此時已經亂碼。

Python爬蟲之必備chardet庫

如果使用chardet庫,獲取網頁源代碼的時候,可以輕松指定字符編碼!

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)# 注意下面這行代碼,是怎么寫的?response.encoding = chardet.detect(response.content)[’encoding’]response.text

結果如下:

Python爬蟲之必備chardet庫

編碼不用我們自己查找,也不用猜,直接交給chardet庫去猜測,正確率還高。

到此這篇關于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關Python chardet庫內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 成人18免费网 | 国内精品不卡一区二区三区 | 午夜在线精品不卡国产 | 一区在线看 | 亚洲欧美不卡中文字幕 | 成人毛片免费观看视频大全 | 国产亚洲精品精品国产亚洲综合 | 亚洲日韩aⅴ在线视频 | 国产精品二区三区免费播放心 | a级国产乱理伦片在线观看99 | 久久性感视频 | 免费三级网站 | 日韩欧美亚洲综合久久99e | 国产一区二区在线视频播放 | 久久久久久久久久毛片精品美女 | 久久九九国产精品怡红院 | 欧美一级看片a免费观看 | 亚洲欧美日韩一区 | 99国产精品久久久久久久日本 | 久久精品最新免费国产成人 | 欧美日韩在线观看免费 | 欧美手机手机在线视频一区 | 久久久久视频精品网 | 动漫精品一区二区 | 久久国产精品久久精 | 国产欧美日韩一区二区三区 | 欧美在线视频免费观看 | www色午夜| 日韩专区欧美 | 国产精品成人观看视频国产 | 日韩99 | 久久精品国产这里是免费 | 国产九九精品 | 国产欧美视频综合二区 | 另类专区另类专区亚洲 | 中文字幕天堂最新版在线网 | 国产成人精品一区二区免费视频 | 伊人波多野结衣 | 免费公开视频人人人人人人人 | 一区二区三区四区视频 | 亚洲精品一级片 |