国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python爬蟲(chóng)如何批量爬取糗事百科段子

瀏覽:104日期:2022-09-18 13:30:16

問(wèn)題描述

剛學(xué)Python不會(huì)scrapy框架,就是想做個(gè)簡(jiǎn)單爬蟲(chóng)實(shí)現(xiàn)抓取前10頁(yè)段子(前N頁(yè))。請(qǐng)問(wèn)不用scrapy能有什么簡(jiǎn)單一些的代碼能實(shí)現(xiàn)?之前有試過(guò)在page那里加for循環(huán),但是也只能抓到一個(gè)頁(yè)面,不知道怎么弄。

import urllibimport urllib2import repage = 1url = ’http://www.qiushibaike.com/8hr/page/’ + str(page)user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’headers = { ’User-Agent’ : user_agent }try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode(’utf-8’) pattern = re.compile(’<p.*?class='content'>.*?<span>(.*?)</span>.*?</p>.*?’,re.S) items = re.findall(pattern,content) for item in items:print itemexcept urllib2.URLError, e: if hasattr(e,'code'):print e.code if hasattr(e,'reason'):print e.reason

問(wèn)題解答

回答1:

我跑了一下你的代碼,發(fā)現(xiàn)能跑出前2個(gè)頁(yè)面,后面都返回了一個(gè)錯(cuò)誤碼,我覺(jué)得是因?yàn)槟銢](méi)做防反爬處理,因?yàn)槟氵@個(gè)結(jié)果在一秒內(nèi)就跑出來(lái)了,一秒內(nèi)連續(xù)10次訪問(wèn)肯定不是人能做到的。

很多網(wǎng)站都能知道你這是用代碼在刷他們的網(wǎng)站,有些網(wǎng)站很討厭這個(gè),會(huì)做反爬處理,可能直接把你的 IP 都給封了,讓你沒(méi)法訪問(wèn),因?yàn)槿绻贿@樣做,短時(shí)間內(nèi)直接訪問(wèn)太多次的話可能會(huì)把人家的網(wǎng)站都弄癱瘓了。

我的建議是每爬完一個(gè)頁(yè)面等待1秒,修改了下你的代碼:

import urllibimport urllib2import reimport timefor page in range(1, 11): print(’at page %s’ % page) url = ’http://www.qiushibaike.com/8hr/page/’ + str(page) user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’ headers = { ’User-Agent’ : user_agent } try:request = urllib2.Request(url,headers = headers)response = urllib2.urlopen(request)content = response.read().decode(’utf-8’)pattern = re.compile(’<p.*?class='content'>.*?<span>(.*?)</span>.*?</p>.*?’,re.S)items = re.findall(pattern,content)for item in items: print item except urllib2.URLError, e:if hasattr(e,'code'): print e.codeif hasattr(e,'reason'): print e.reasontime.sleep(1)

我這邊是能出結(jié)果的,不過(guò)我想向你推薦另一個(gè)第三方的庫(kù),叫 requests,既然你會(huì) urllib,這也就不難,但是使用起來(lái)更人性化,配合 BeatuifulSoup 庫(kù)(用來(lái)解析和處理 HTML 文本的)很方便,你也可以去網(wǎng)上搜一下,了解一下。

還有就是以后做爬蟲(chóng)一定要注意做防反爬處理!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 欧美日韩亚洲另类 | 国产精品国产三级国产普通 | 亚洲国产品综合人成综合网站 | 久草资源在线观看 | 国产亚洲精品久久久久久久 | 亚洲成人综合在线 | 国产精品综合久成人 | 久久高清一级毛片 | 欧美国产综合日韩一区二区 | 国产九九视频在线观看 | 美女成人网 | 久久精品国产亚洲7777 | 国产cao | 美女视频永久黄网站免费观看韩国 | 亚洲片在线观看 | 一级片在线免费看 | 欧美搞黄视频 | 精品国产免费第一区二区三区日韩 | 国内精品视频九九九九 | 亚久久伊人精品青青草原2020 | 日本加勒比在线视频 | 欧美与黑人午夜性猛交久久久 | 韩国一大片a毛片 | 久久免费资源 | 一级aaaaaa毛片免费 | 色综合久久久久久888 | 成人免费ā片 | 日韩欧美亚洲 | 狠狠88综合久久久久综合网 | 欧美三级黄色大片 | 亚洲精品一区二三区在线观看 | 欧美成人一级片 | 国产欧美综合一区二区 | 欧美日韩不卡在线 | 欧美一级毛片在线看视频 | 日本一级毛片在线看 | 亚洲欧美日本视频 | 美女扒开腿让男人桶爽免费动态图 | 欧美午夜视频 | 欧美精品黄页免费高清在线 | 全部免费国产潢色一级 |