国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:92日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態(tài)碼來判斷,但是寫完運行后發(fā)現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態(tài)碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態(tài)碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態(tài)碼,是網絡連接狀態(tài), 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態(tài)碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 免费播放aa在线视频成人 | 美女插跳蛋视频叫爽 | 亚洲精品欧洲久久婷婷99 | 精品欧美高清不卡在线 | 男女视频在线观看免费高清观看 | 夜色亚洲 | 久久亚洲国产午夜精品理论片 | 中文字幕毛片 | 成人影院人人免费 | 中国美女一级看片 | 国产亚洲欧美精品久久久 | 国产精品午夜波多野结衣性色 | 国产精品久久做爰 | 91大神在线精品视频一区 | 国产精品91在线 | 一级毛片免费播放视频 | 亚洲人成网站色7799在线观看 | 日韩中文字幕精品一区在线 | 波多野结衣视频在线 | 三级全黄的全黄三级三级播放 | 91精品国产91热久久p | 亚洲成aⅴ人片在线观 | 黄色三级毛片网站 | 亚洲欧美午夜 | 91精品国产91热久久p | 天天做天天爱夜夜大爽完整 | 国产成人精品免费 | 免费国产成人手机在线观看 | 免费高清不卡毛片在线看 | 亚洲在线观看网站 | 国产伦码精品一区二区 | 日本韩国一级毛片中文字幕 | 99视频只有精品 | 一级美女黄色片 | 18在线网站 | 日本道久久 | 国产高清无专砖区2021 | 国产伦久视频免费观看 视频 | 欧美精品综合一区二区三区 | av毛片在线看 | 国产精品久久久久久久 |