文章詳情頁

python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)

瀏覽：4日期：2022-07-10 17:19:58

1.網(wǎng)絡(luò)爬蟲的基本概念

網(wǎng)絡(luò)爬蟲（又稱網(wǎng)絡(luò)蜘蛛，機(jī)器人），就是模擬客戶端發(fā)送網(wǎng)絡(luò)請求，接收請求響應(yīng)，一種按照一定的規(guī)則，自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序。只要瀏覽器能夠做的事情，原則上，爬蟲都能夠做到。

2.網(wǎng)絡(luò)爬蟲的功能

網(wǎng)絡(luò)爬蟲可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取網(wǎng)站上面的圖片，比如有些朋友將某些網(wǎng)站上的圖片全部爬取下來，集中進(jìn)行瀏覽，同時(shí)，網(wǎng)絡(luò)爬蟲也可以用于金融投資領(lǐng)域，比如可以自動(dòng)爬取一些金融信息，并進(jìn)行投資分析等。

有時(shí)，我們比較喜歡的新聞網(wǎng)站可能有幾個(gè)，每次都要分別打開這些新聞網(wǎng)站進(jìn)行瀏覽，比較麻煩。此時(shí)可以利用網(wǎng)絡(luò)爬蟲，將這多個(gè)新聞網(wǎng)站中的新聞信息爬取下來，集中進(jìn)行閱讀。

有時(shí)，我們在瀏覽網(wǎng)頁上的信息的時(shí)候，會(huì)發(fā)現(xiàn)有很多廣告。此時(shí)同樣可以利用爬蟲將對應(yīng)網(wǎng)頁上的信息爬取過來，這樣就可以自動(dòng)的過濾掉這些廣告，方便對信息的閱讀與使用。

有時(shí)，我們需要進(jìn)行營銷，那么如何找到目標(biāo)客戶以及目標(biāo)客戶的聯(lián)系方式是一個(gè)關(guān)鍵問題。我們可以手動(dòng)地在互聯(lián)網(wǎng)中尋找，但是這樣的效率會(huì)很低。此時(shí)，我們利用爬蟲，可以設(shè)置對應(yīng)的規(guī)則，自動(dòng)地從互聯(lián)網(wǎng)中采集目標(biāo)用戶的聯(lián)系方式等數(shù)據(jù)，供我們進(jìn)行營銷使用。

有時(shí)，我們想對某個(gè)網(wǎng)站的用戶信息進(jìn)行分析，比如分析該網(wǎng)站的用戶活躍度、發(fā)言數(shù)、熱門文章等信息，如果我們不是網(wǎng)站管理員，手工統(tǒng)計(jì)將是一個(gè)非常龐大的工程。此時(shí)，可以利用爬蟲輕松將這些數(shù)據(jù)采集到，以便進(jìn)行進(jìn)一步分析，而這一切爬取的操作，都是自動(dòng)進(jìn)行的，我們只需要編寫好對應(yīng)的爬蟲，并設(shè)計(jì)好對應(yīng)的規(guī)則即可。

除此之外，爬蟲還可以實(shí)現(xiàn)很多強(qiáng)大的功能。總之，爬蟲的出現(xiàn)，可以在一定程度上代替手工訪問網(wǎng)頁，從而，原先我們需要人工去訪問互聯(lián)網(wǎng)信息的操作，現(xiàn)在都可以用爬蟲自動(dòng)化實(shí)現(xiàn)，這樣可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。

3.安裝第三方庫

在進(jìn)行爬取數(shù)據(jù)和解析數(shù)據(jù)前，需要在Python運(yùn)行環(huán)境中下載安裝第三方庫requests。

在Windows系統(tǒng)中，打開cmd（命令提示符）界面，在該界面輸入pip install requests,按回車鍵進(jìn)行安裝。（注意連接網(wǎng)絡(luò)）如下圖

python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)

安裝完成，如圖

python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)

4.爬取淘寶首頁

# 請求庫import requests# 用于解決爬取的數(shù)據(jù)格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網(wǎng)頁鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text

運(yùn)行結(jié)果，如圖

python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)

5.爬取和解析淘寶網(wǎng)首頁

# 請求庫import requests# 解析庫from bs4 import BeautifulSoup# 用于解決爬取的數(shù)據(jù)格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網(wǎng)頁鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text# 再次封裝，獲取具體標(biāo)簽內(nèi)的內(nèi)容bs = BeautifulSoup(result,’html.parser’)# 具體標(biāo)簽print('解析后的數(shù)據(jù)')print(bs.span)a={}# 獲取已爬取內(nèi)容中的script標(biāo)簽內(nèi)容data=bs.find_all(’script’)# 獲取已爬取內(nèi)容中的td標(biāo)簽內(nèi)容data1=bs.find_all(’td’)# 循環(huán)打印輸出for i in data: a=i.text print(i.text,end=’’) for j in data1: print(j.text)

運(yùn)行結(jié)果，如圖

python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)

6.小結(jié)

在對網(wǎng)頁代碼進(jìn)行爬取操作時(shí)，不能頻繁操作，更不要將其設(shè)置成死循環(huán)模式（每一次爬取則為對網(wǎng)頁的訪問，頻繁操作會(huì)導(dǎo)致系統(tǒng)崩潰，會(huì)追究其法律責(zé)任）。

所以在獲取網(wǎng)頁數(shù)據(jù)后，將其保存為本地文本模式，再對其進(jìn)行解析（不再需要訪問網(wǎng)頁）。

以上就是python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)的詳細(xì)內(nèi)容，更多關(guān)于python爬取網(wǎng)頁數(shù)據(jù)并解析的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python自定義sorted排序?qū)崿F(xiàn)方法詳解下一條：Python實(shí)現(xiàn)迪杰斯特拉算法過程解析

相關(guān)文章：

1. python 如何在 Matplotlib 中繪制垂直線2. bootstrap select2 動(dòng)態(tài)從后臺(tái)Ajax動(dòng)態(tài)獲取數(shù)據(jù)的代碼3. ASP常用日期格式化函數(shù) FormatDate()4. python中@contextmanager實(shí)例用法5. html中的form不提交（排除）某些input 原創(chuàng)6. CSS3中Transition屬性詳解以及示例分享7. js select支持手動(dòng)輸入功能實(shí)現(xiàn)代碼8. 如何通過python實(shí)現(xiàn)IOU計(jì)算代碼實(shí)例9. 開發(fā)效率翻倍的Web API使用技巧10. vue使用moment如何將時(shí)間戳轉(zhuǎn)為標(biāo)準(zhǔn)日期時(shí)間格式

排行榜

					
					Python數(shù)據(jù)相關(guān)系數(shù)矩陣和熱力圖輕松實(shí)現(xiàn)教程
如何在PHP中讀寫文件
vue-drag-chart 拖動(dòng)/縮放圖表組件的實(shí)例代碼
PHP正則表達(dá)式函數(shù)preg_replace用法實(shí)例分析
如何使用repr調(diào)試python程序
php redis setnx分布式鎖簡單原理解析
Java xml數(shù)據(jù)格式返回實(shí)現(xiàn)操作
Spring @Primary和@Qualifier注解原理解析
Django使用channels + websocket打造在線聊天室
Spring Boot 功能整合的實(shí)現(xiàn)
一個(gè) 2 年 Android 開發(fā)者的 18 條忠告