文章詳情頁

Python爬蟲防封ip的一些技巧

瀏覽：62日期：2022-07-14 18:18:34

在編寫爬蟲爬取數據的時候，因為很多網站都有反爬蟲措施，所以很容易被封IP，就不能繼續爬了。在爬取大數據量的數據時更是瑟瑟發抖，時刻擔心著下一秒IP可能就被封了。

本文就如何解決這個問題總結出一些應對措施，這些措施可以單獨使用，也可以同時使用，效果更好。

偽造User-Agent

在請求頭中把User-Agent設置成瀏覽器中的User-Agent，來偽造瀏覽器訪問。比如：

headers ={’User-Agent’:’Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’} resp = requests.get(url,headers = headers)

還可以先收集多種瀏覽器的User-Agent，每次發起請求時隨機從中選一個使用，可以進一步提高安全性：

Python爬蟲防封ip的一些技巧

把上面隨機選擇一個User-Agent的代碼封裝成一個函數：

Python爬蟲防封ip的一些技巧

在每次重復爬取之間設置一個隨機時間間隔

比如：

time.sleep(random.randint(0,3)) # 暫停0~3秒的整數秒，時間區間：[0,3]

或：

time.sleep(random.random()) # 暫停0~1秒，時間區間：[0,1)

偽造cookies

若從瀏覽器中可以正常訪問一個頁面，則可以將瀏覽器中的cookies復制過來使用，比如：

Python爬蟲防封ip的一些技巧

注：用瀏覽器cookies發起請求后，如果請求頻率過于頻繁仍會被封IP，這時可以在瀏覽器上進行相應的手工驗證（比如點擊驗證圖片等），然后就可以繼續正常使用該cookies發起請求。

使用代理

可以換著用多個代理IP來進行訪問，防止同一個IP發起過多請求而被封IP，比如：

附：GitHub上的一個'反反爬蟲'項目

道高一尺魔高一丈，你有反爬蟲措施，那我也有各種'反反爬蟲'的措施，GitHub上就有一位大神專門整理了一個這樣的項目：Anti-Anti-Spider，鏈接地址為：github.com/luyishisi/An可以研究一下。

以上就是Python爬蟲防封ip的一些技巧的詳細內容，更多關于Python爬蟲防封ip的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：用python實現前向分詞最大匹配算法的示例代碼下一條：Python無損壓縮圖片的示例代碼

相關文章：

1. 什么是Python變量作用域2. Android 實現徹底退出自己APP 并殺掉所有相關的進程3. Vue實現仿iPhone懸浮球的示例代碼4. js select支持手動輸入功能實現代碼5. Android studio 解決logcat無過濾工具欄的操作6. vue使用moment如何將時間戳轉為標準日期時間格式7. bootstrap select2 動態從后臺Ajax動態獲取數據的代碼8. 一個 2 年 Android 開發者的 18 條忠告9. PHP正則表達式函數preg_replace用法實例分析10. vue-drag-chart 拖動/縮放圖表組件的實例代碼

排行榜

					
					vue-drag-chart 拖動/縮放圖表組件的實例代碼
PHP正則表達式函數preg_replace用法實例分析
一個 2 年 Android 開發者的 18 條忠告
Spring @Primary和@Qualifier注解原理解析
Vue實現仿iPhone懸浮球的示例代碼
關于docker部署的jenkins跑git上的程序的問題
js select支持手動輸入功能實現代碼
docker版es、milvus、minio啟動命令詳解
JSP標簽庫介紹
Spring的異常重試框架Spring Retry簡單配置操作
Android 實現徹底退出自己APP 并殺掉所有相關的進程