文章詳情頁

基于Python采集爬取微信公眾號歷史數據

瀏覽：23日期：2022-07-04 10:10:04

鯤之鵬的技術人員將在本文介紹一種通過模擬操作微信App的方式采集指定公眾號的所有歷史數據的方法。

通過我們抓包分析發現，微信公眾號的歷史數據是通過HTTP協議加載的，對應的API接口如下圖所示，其中有四個關鍵參數（__biz、appmsg_token、pass_ticket以及Cookie）。

為了能夠拿到這四個參數，我們需要模擬操作App，讓其產生這些參數，然后我們再抓包獲取。對于模擬App操作，前面我們曾介紹過通過Python模擬安卓App的方法(詳見http://www.site-digger.com/html/articles/20180912/664.html)。對于HTTP集成抓包，前面我們曾介紹過Mitmproxy（詳見http://www.site-digger.com/html/articles/20181109/682.html）。

我們需要模擬操作微信完成如下步驟：

1. 啟動微信App

2. 點擊'通訊錄'

3. 點擊'公眾號'

4. 點擊要采集的公眾號

5. 點擊右上角的用戶圖像圖標

6. 點擊'全部消息'

基于Python采集爬取微信公眾號歷史數據

此時，我們可以從https://mp.weixin.qq.com/mp/profile_ext?action=home的應答數據中捕獲__biz、appmsg_token以及pass_ticket三個關鍵參數，以及請求頭中的Cookie值。如下圖所示。

基于Python采集爬取微信公眾號歷史數據

有了上述四個參數，我們就可以構造出獲取歷史文章列表的API請求，通過調用API接口直接獲取數據（不需要再模擬App操作）。核心參數如下所示，通過改變offset參數，可以拿到所有歷史數據。

# Cookie headers = {’Cookie’: ’rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO’} url = ’https://mp.weixin.qq.com/mp/profile_ext?’ data = {} data[’is_ok’] = ’1’ data[’count’] = ’10’ data[’wxtoken’] = ’’ data[’f’] = ’json’ data[’scene’] = ’124’ data[’uin’] = ’777’ data[’key’] = ’777’ data[’offset’] = ’0’ data[’action’] = ’getmsg’ data[’x5’] = ’0’ # 下面三個參數需要替換 # https://mp.weixin.qq.com/mp/profile_ext?action=home應答數據里會暴漏這三個參數 data[’__biz’] = ’MjM5MzQyOTM1OQ==’ data[’appmsg_token’] = ’993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~’ data[’pass_ticket’] = ’Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE’ url = url + urllib.urlencode(data)

以'數字工廠'這個微信公眾號為例，采集過程運行截圖如下所示：

基于Python采集爬取微信公眾號歷史數據

輸出結果截圖如下所示：

基于Python采集爬取微信公眾號歷史數據

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

微信 Python

上一條：Python環境配置實現pip加速過程解析下一條：Python基于execjs運行js過程解析

相關文章：

1. IntelliJ IDEA刪除類的方法步驟2. Python中關于logging模塊的學習筆記3. Vue實現仿iPhone懸浮球的示例代碼4. js select支持手動輸入功能實現代碼5. vue使用moment如何將時間戳轉為標準日期時間格式6. Android 實現徹底退出自己APP 并殺掉所有相關的進程7. Spring的異常重試框架Spring Retry簡單配置操作8. JSP中Servlet的Request與Response的用法與區別9. Struts2獲取參數的三種方法總結10. PHP正則表達式函數preg_replace用法實例分析

排行榜

					
					IntelliJ IDEA刪除類的方法步驟
Python中關于logging模塊的學習筆記
JSP中Servlet的Request與Response的用法與區別
PHP正則表達式函數preg_replace用法實例分析
Vue實現仿iPhone懸浮球的示例代碼
js select支持手動輸入功能實現代碼
Spring的異常重試框架Spring Retry簡單配置操作
Android 實現徹底退出自己APP 并殺掉所有相關的進程
vue使用moment如何將時間戳轉為標準日期時間格式
vue cli4下環境變量和模式示例詳解
Docker上實現Redis集群搭建