文章詳情頁(yè)

python - 爬蟲(chóng)獲取網(wǎng)站數(shù)據(jù)，出現(xiàn)亂碼怎么解決。

瀏覽：101日期：2022-08-04 09:36:09

問(wèn)題描述

#!/usr/bin/python# -*- coding: utf-8 -*-import urllib2import reimport HTMLParserclass WALLSTREET: def __init__(self, baseUrl):self.url = baseUrl def get_html_content(self):url = self.urlresponse = urllib2.urlopen(url)str = response.read()print strbaseUrl='https://wallstreetcn.com/live/global' #華爾街見(jiàn)文urlws = WALLSTREET(baseUrl)ws.get_html_content()

以上是代碼，寫(xiě)的很簡(jiǎn)單，但是print出來(lái)的是亂碼嘗試了 print str.decode(“utf-8“”)但是報(bào)錯(cuò)UnicodeDecodeError: ’utf8’ codec can’t decode byte 0x8b in position 1: invalid start byte

問(wèn)題解答

回答1：

str = response.read()這句有兩個(gè)問(wèn)題：1、str是內(nèi)置關(guān)鍵字必須更改為其他變量名2、查看網(wǎng)頁(yè)源代碼的編碼方式，如果為utf-8在read()后加.decode(’utf-8’)，若為其他可以相應(yīng)解碼

小建議這種小程序?qū)憘€(gè)函數(shù)會(huì)比用類(lèi)來(lái)更加方便，無(wú)論是使用還是實(shí)現(xiàn)

回答2：

推測(cè)用的是sublime text？參考這個(gè)

回答3：

這兒應(yīng)該是encode不是decode，而且你的變量名居然是跟內(nèi)置關(guān)鍵字名字一樣

回答4：

應(yīng)該是encode吧

Python 編程

上一條：python - 如何將大量excel表格模板導(dǎo)入mysql數(shù)據(jù)庫(kù)中？下一條：python - ImportError: cannot import name ScopedSession

排行榜

					
					nignx - docker內(nèi)nginx 80端口被占用
docker容器呢SSH為什么連不通呢？
關(guān)docker hub上有些鏡像的tag被標(biāo)記““This image has vulnerabilities””
debian - docker依賴(lài)的aufs-tools源碼哪里可以找到??？
docker網(wǎng)絡(luò)端口映射，沒(méi)有方便點(diǎn)的操作方法么？
前端 - ng-view不能加載進(jìn)模板
python - from ..xxxx import xxxx到底是什么意思呢?
angular.js - angularJS在Android WebView中無(wú)法正常調(diào)后臺(tái)接口
docker api 開(kāi)發(fā)的端口怎么獲取？
dockerfile - 為什么docker容器啟動(dòng)不了？
angular.js - angularjs的自定義過(guò)濾器如何給文字加顏色？
				

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - 爬蟲(chóng)獲取網(wǎng)站數(shù)據(jù)，出現(xiàn)亂碼怎么解決。

python - 爬蟲(chóng)獲取網(wǎng)站數(shù)據(jù)，出現(xiàn)亂碼怎么解決。