国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

網(wǎng)絡(luò)爬蟲 - python爬蟲爬取資料,是直接生成Excel文件還是存入Mysql有利于后期處理。

瀏覽:63日期:2022-09-17 13:17:15

問題描述

要處理的文件不多,就是幾萬條,都是些簡單的處理,Excel暫時也夠用。大概思路兩條:

1、python抓到的數(shù)據(jù)通過Python DB API 儲存到mysql中再做處理。2、直接把爬取到的資料用Phthon XlsxWriter模塊生成Execl文件(.xlsx)。

不知道哪條路線對自動生成文件和后期的處理比較方便。自己不太會用mysql,所以比較傾向用XlsxWriter模塊生成Execl文件,只是看了XlsxWriter模塊的一些文檔,也只是編寫數(shù)據(jù)內(nèi)容和格式,然后生成Execl文件,不知道有沒有爬取的數(shù)據(jù)自動生成Execl文件比較簡單的實(shí)現(xiàn)(有一些爬蟲的框架可以實(shí)現(xiàn),但是暫時沒有學(xué)習(xí)框架,因?yàn)橹皇窍雽?shí)現(xiàn)一些簡單的功能而已)。

問題解答

回答1:

我遇到過類似的問題, 最后選的是用 excel.這個完全看你的需求.哪個方便選哪個. 先說下我的情況.

我當(dāng)時的需求每次只爬幾百條數(shù)據(jù), 而且每次都是用完就扔.所以用 excel 更方便些. 操作 excel 我用的 openpyxl. 只用來保存爬取的數(shù)據(jù), 不操作樣式, 用起來還是蠻簡單的.

看你的數(shù)據(jù)有幾萬條, 如果考慮以后還會持續(xù)增加的話, 還是直接存數(shù)據(jù)庫以后操作比較方便.話又說回來, 如果覺得現(xiàn)在存 excel 也能滿足自己需求的, 而且更方便的話, 存 excel 也行.以后隨著數(shù)據(jù)增長, 覺得 excel 不能滿足需求了, 寫個腳本直接把 excel 里的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫里.

看題主還擔(dān)心不熟悉 MySQL, 這個完全不是問題, 學(xué)過其他數(shù)據(jù)庫的話, 學(xué) MySQL 也不是難事.

回答2:

數(shù)據(jù)庫

遲早要接觸的

數(shù)據(jù)少 直接文本文件存儲都比 Excel 好...

回答3:

我覺得這個和用什么數(shù)據(jù)庫存儲沒關(guān)系,可以爬蟲爬取的數(shù)據(jù)存進(jìn)execl里面,后期再自己寫程序?qū)xecl數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,這樣也能提高爬蟲處理的速度,如果在爬取過程中入庫就不太好了

回答4:

不懂mysql 就直接用 openpyxl

回答5:

存成csv文本文件, 照樣可以用Excel打開,也方便導(dǎo)入數(shù)據(jù)庫.

回答6:

SQLite

回答7:

數(shù)據(jù)少并發(fā)不高用Sqlite唄~不熟sql用ORM唄~例如peewee~

回答8:

后期處理肯定使用數(shù)據(jù)庫。

標(biāo)簽: python
主站蜘蛛池模板: 天堂精品高清1区2区3区 | 国产亚洲美女精品久久 | 波多野结衣视频免费在线观看 | 新版天堂中文资源官网 | 美女黄网站视频 | 牛牛本精品99久久精品88m | 久久亚洲国产最新网站 | 99爱视频精品免视看 | 日本毛片在线观看 | 中文字幕亚洲一区 | 在线视频一区二区三区四区 | 在线a毛片免费视频观看 | aaa毛片免费观看 | 69精品免费视频 | 日本三级精品 | 国产在线激情视频 | 国产美女视频一区 | 久久在视频 | 成人在线播放视频 | 日本高清免费视频色www | 国产香蕉98碰碰久久人人 | 亚洲成人午夜影院 | 中文在线亚洲 | 91精品国产手机 | 国产视频综合 | 亚洲精品播放 | 欧美视频成人 | 亚洲视屏在线 | 色综合亚洲七七久久桃花影院 | 国产萌白酱在线一区二区 | 99re国产视频 | 黄色三级网址 | 香蕉伊人网 | 一级美女黄色片 | 99国产视频| 久久视频免费观看 | 亚洲区精品 | 久久精品国产一区二区三区 | 精品久久久久久久久免费影院 | 国产精品亚洲专一区二区三区 | 日韩中文字幕网 |