Python爬蟲防封ip的一些技巧
在編寫爬蟲爬取數據的時候,因為很多網站都有反爬蟲措施,所以很容易被封IP,就不能繼續爬了。在爬取大數據量的數據時更是瑟瑟發抖,時刻擔心著下一秒IP可能就被封了。
本文就如何解決這個問題總結出一些應對措施,這些措施可以單獨使用,也可以同時使用,效果更好。
偽造User-Agent
在請求頭中把User-Agent設置成瀏覽器中的User-Agent,來偽造瀏覽器訪問。比如:
headers ={’User-Agent’:’Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’} resp = requests.get(url,headers = headers)
還可以先收集多種瀏覽器的User-Agent,每次發起請求時隨機從中選一個使用,可以進一步提高安全性:
把上面隨機選擇一個User-Agent的代碼封裝成一個函數:
在每次重復爬取之間設置一個隨機時間間隔
比如:
time.sleep(random.randint(0,3)) # 暫停0~3秒的整數秒,時間區間:[0,3]
或:
time.sleep(random.random()) # 暫停0~1秒,時間區間:[0,1)
偽造cookies
若從瀏覽器中可以正常訪問一個頁面,則可以將瀏覽器中的cookies復制過來使用,比如:
注:用瀏覽器cookies發起請求后,如果請求頻率過于頻繁仍會被封IP,這時可以在瀏覽器上進行相應的手工驗證(比如點擊驗證圖片等),然后就可以繼續正常使用該cookies發起請求。
使用代理
可以換著用多個代理IP來進行訪問,防止同一個IP發起過多請求而被封IP,比如:
附:GitHub上的一個'反反爬蟲'項目
道高一尺魔高一丈,你有反爬蟲措施,那我也有各種'反反爬蟲'的措施,GitHub上就有一位大神專門整理了一個這樣的項目:Anti-Anti-Spider,鏈接地址為:github.com/luyishisi/An可以研究一下。
以上就是Python爬蟲防封ip的一些技巧的詳細內容,更多關于Python爬蟲防封ip的資料請關注好吧啦網其它相關文章!
相關文章:
