国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:96日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 美女视频网站色 | 欧美一区综合 | 免费看欧美日韩一区二区三区 | 九九视频精品在线 | 日本一区二区三区高清在线观看 | 欧美日韩一区二区在线 | 爱福利极品盛宴 | 精品精品国产自在久久高清 | 成人禁在线观看网站 | 欧美视频一区二区三区精品 | 久久久www免费看片 久久久www免费人成看片 | 成年女人黄小视频 | 国产精品福利午夜h视频 | 国产人成午夜免费噼啪视频 | 中文字幕一区二区三区亚洲精品 | 久久久久久久国产精品 | 国产精品免费观看视频 | 亚洲精品人成网线在线 | 午夜欧美日韩在线视频播放 | 亚洲ay| 国产精品一区在线观看 | 欧美一级aa免费毛片 | 日韩精品视频在线 | 国产精品久久久久免费a∨ 国产精品久久久久免费视频 | 一及 片日本 | 波多野结衣一区二区三区在线观看 | aa毛片免费全部播放完整 | 97香蕉久久夜色精品国产 | 国产精品高清久久久久久久 | 曰本人做爰大片免费观看一 | 国产成人女人在线视频观看 | 在线国产一区 | 午夜精品影院 | 久久久久久久国产精品 | 亚洲国产一成人久久精品 | 成人ab片 | 日产一区2区三区有限公司 日产一区两区三区 | 久久国产片 | 中文字幕在线观看亚洲日韩 | 国产成人综合久久精品亚洲 | 99re国产视频|