国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

python-xpath獲取html文檔的部分內(nèi)容

瀏覽:4日期:2022-08-03 15:56:25

有些時(shí)候我在們需要的用正則提取出html中某一個(gè)部分的文字內(nèi)容,如圖:

python-xpath獲取html文檔的部分內(nèi)容

獲取dd部分的html文檔,我們要通過它的一個(gè)屬性去確定他的位置才可以拿到他這個(gè)部分我們可以看到他的這個(gè)屬性class=’row clearfix ’,然后用xpath去獲取到這部分:

name = tree.xpath('//dd[@class=’row clearfix ’]')from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')print(name)

如果直接打印他是不能夠出來的,

python-xpath獲取html文檔的部分內(nèi)容

我們需要對(duì)Element進(jìn)行處理,用到name1 = html.tostring(name[0]),代碼如下:

from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])print(name1)

打印截圖:

python-xpath獲取html文檔的部分內(nèi)容

但是大家可以看到里面的等內(nèi)容并不是中文,原因是我們使用tostring方法輸出的是修正后的HTML代碼,但是結(jié)果是bytes類型,在python中bytes類型是不可以進(jìn)行編碼的,需要轉(zhuǎn)換成字符串,使用代碼name1.decode(),此時(shí)我們將bytes類型轉(zhuǎn)換為str(字符串)類型。

那么此時(shí)我們關(guān)鍵是如何將$#26080;此類的符號(hào)轉(zhuǎn)換成漢字!!!那么首先要搞清楚這是什么編碼?這類符號(hào)是HTML、XML 等 SGML 類語言的轉(zhuǎn)義序列。它們不是”編碼“,也就是說我們不能使用utf-8、gbk等編碼進(jìn)行處理,需要使用HTMLParse進(jìn)行處理,完整代碼如下:

from lxml import htmlimport requestsfrom html.parser import HTMLParser #導(dǎo)入html解析庫url = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])name2 = HTMLParser().unescape(name1.decode())print(name2)

此時(shí)運(yùn)行結(jié)果如下:

python-xpath獲取html文檔的部分內(nèi)容

那么此時(shí)就已經(jīng)大功告成了!!!

以上這篇python-xpath獲取html文檔的部分內(nèi)容就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲综合91 | 成人亚洲视频在线观看 | 伊人情人综合网 | 成人性欧美丨区二区三区 | 欧美三级视频在线观看 | 黄频免费影院 | 久久久久欧美精品网站 | 亚洲国产成人精品久久 | 美女一级毛片视频 | 97青草香蕉依人在线播放 | 91精品国产免费 | 亚洲国产精品久久久久久 | 国产精品2019 | 一区二区影院 | 日本中文字幕不卡免费视频 | 欧美成人看片一区二区三区尤物 | 欧美视频亚洲视频 | 亚欧国产| 国产片91人成在线观看 | 国产做a爰片久久毛片a | 亚洲精品人成网在线播放影院 | 久久影院视频 | 91视频欧美 | 最全精品自拍视频在线 | 亚洲国产精品一区二区久久 | 成年女人色毛片免费 | 国产精品久久久久久久久免费 | 精品九九久久国内精品 | 色九| 黄网站色视频免费观看w | 一级特黄a视频 | 性夜黄a爽爽免费视频国产 性夜影院爽黄a爽免费看网站 | 女人张开腿让男人捅的视频 | 高清性色生活片久久久 | 亚洲欧美另类专区 | 久久精品国产99国产精品 | 九九99在线视频 | 欧美一级毛片欧美一级 | 久久免费国产精品一区二区 | 国产三级三级三级三级 | 久久有精品 |