文章詳情頁

用Python自動下載網站所有文件

瀏覽：73日期：2022-06-24 11:28:36

最近維基 jie mi 徹底公開了網站的全部文件，我就在想如何使用 Python 將其下載到本地永久保存，于是就有了這篇文章，寫爬蟲會遇到很多坑，借鑒他人經驗，考慮越全面，出錯的概率就越小。

用Python自動下載網站所有文件

假如一個網站，里面有很多鏈接，有指向文件的，有指向新鏈接的，新的鏈接點擊進去后，仍然是有指向文件的，有指向新鏈接的，類似一個文件夾，里面即有文件，又有目錄，目錄中又有文件和目錄。如何從這樣的網站上下載所有的文件，并按網站的目錄結構來保存這些文件呢？

關鍵詞：Python、下載、正則表達式、遞歸。

按照自頂向下來設計程序，我們整理自己的思路，然后使用 Python 語言來翻譯下即可。

思路：由于目錄的深度不固定，也不可能窮舉，且每一個目錄的處理方式和子目錄父目錄的處理流程都是一樣的，因此我們可以使用遞歸來下載所有文件。

遞歸代碼必須要有退出條件，退出條件要放在前面，本例中的遞歸退出條件就是：如果是文件就下載，下載完遞歸函數即完成任務。

總體思路：

1、給定一個 url，判斷是否是文件，如果是文件，下載即可，然后函數結束。

2、如果給定 url 不是文件，那么訪問該 url，并獲取它下面的所有鏈接。

3、遍歷步驟 2 產生的所有鏈接，遞歸的執行步驟 1 和 2，直到程序運行結束。

以上思路，用代碼描述如下：

import urllib.requestimport requestsimport re, osdef get_file(url): ’’’ 遞歸下載網站的文件 :param url: :return: ’’’ if isFile(url): print(url) try: download(url) except: pass else: urls = get_url(url) for u in urls: get_file(u)

前面導入的包在接下來函數中會用到，下面就是逐漸層向下，實現子功能。

判斷鏈接是否指向文件：

這里總結 url 規律，很容易寫出。

def isFile(url): ’’’ 判斷一個鏈接是否是文件 :param url: :return: ’’’ if url.endswith(’/’): return False else: return True下載文件：

下載文件時要從 url 中獲取文件應該存儲的位置，并使用 os.makedirs 來創建多級目錄。然后使用 urllib.request.urlretrieve 來下載文件。

def download(url): ’’’ :param url:文件鏈接 :return: 下載文件，自動創建目錄 ’’’ full_name = url.split(’//’)[-1] filename = full_name.split(’/’)[-1] dirname = '/'.join(full_name.split(’/’)[:-1]) if os.path.exists(dirname): pass else: os.makedirs(dirname, exist_ok=True) urllib.request.urlretrieve(url, full_name)獲取 url 下的所有鏈接：

這里要具體網站具體分析，看看如何使用正則表達式獲取網頁中的鏈接，這樣的正則表達式可以說是再簡單不過了。

def get_url(base_url): ’’’ :param base_url:給定一個網址 :return: 獲取給定網址中的所有鏈接 ’’’ text = ’’ try: text = requests.get(base_url).text except Exception as e: print('error - > ',base_url,e) pass reg = ’<a href='http://www.cgvv.com.cn/bcjs/(.*)' rel='external nofollow' >.*</a>’ urls = [base_url + url for url in re.findall(reg, text) if url != ’../’] return urls

這里有個小坑，就是網站有個鏈接是返回上級頁面的，url 的后輟是 ’../’ 這樣的鏈接要去掉，否則遞歸函數就限入了死循環。

接下來就是寫主函數，執行任務了，慢慢等它下載完吧。

if __name__ == ’__main__’: get_file(’https://file.wikileaks.org/file/’)

其實，還會存兩個問題：

1、假如網站某頁有個鏈接它指向了首頁，那么遞歸程序仍然會限入一個死循環，解決方法就是將訪問過的 url 保存在一個列表里（或者其他數據結構），如果接下來要訪問的 url 不在此列表中，那么就訪問，否則就忽略。

2、如果下載的過程中程序突然報錯退出了，由于下載文件較慢，為了節約時間，那么如何讓程序從報錯處繼續運行呢？這里可采用分層遞歸，一開始時先獲取網站的所有一級 url 鏈接，順序遍歷這些一級 url 鏈接，執行上述的 get_file(url) ，每訪問一次一級 url 就將其索引位置加1（索引位置默認為0，存儲在文件中或數據庫中），程序中斷后再運行時先讀取索引，然后從索引處開始執行即可。另外，每下載成功一個文件，就把對應的 url 也保存在文件中或數據庫中，如果一級 url 下的鏈接已經下載過文件，那么就不需要重新下載了。

以上就是用Python自動下載網站所有文件的詳細內容，更多關于python 自動下載網站文件的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：Python PyQt5中彈出子窗口解決子窗口一閃而過的問題下一條：python 爬取知乎回答下的微信8.0狀態視頻

相關文章：

1. ASP刪除img標簽的style屬性只保留src的正則函數2. 低版本IE正常運行HTML5+CSS3網站的3種解決方案3. HTML5 Canvas繪制圖形從入門到精通4. 讀大數據量的XML文件的讀取問題5. css代碼優化的12個技巧6. jsp+servlet實現猜數字游戲7. asp批量添加修改刪除操作示例代碼8. PHP循環與分支知識點梳理9. ASP.NET MVC使用異步Action的方法10. ASP實現加法驗證碼

排行榜

					
					django從后臺返回html代碼的實例
Docker容器如何更新打包并上傳到阿里云
JetBrains IntelliJ IDEA 配置優化技巧
Python實現GIF圖倒放
低版本IE正常運行HTML5+CSS3網站的3種解決方案
ASP.NET MVC使用異步Action的方法
Django結合使用Scrapy爬取數據入庫的方法示例
PHP循環與分支知識點梳理
ASP刪除img標簽的style屬性只保留src的正則函數
ASP實現加法驗證碼
ajax請求后臺得到json數據后動態生成樹形下拉框的方法