文章詳情頁

網(wǎng)頁爬蟲 - 如何使用使用java抓取信息并制作一個排名系統(tǒng)？

瀏覽：112日期：2023-11-13 14:18:10

問題描述

在學(xué)習(xí)java web 正好有一個有趣的項目可以做。我們學(xué)校需要晨跑刷卡，體育部提供一個查詢網(wǎng)站，但是不提供接口。想做一個網(wǎng)站/微信后臺從學(xué)校網(wǎng)上抓取信息儲存到數(shù)據(jù)庫然后用戶可以通過我的網(wǎng)站/微信來查詢自己的跑操記錄。并且根據(jù)這些記錄顯示排名等其他的功能。

查詢只需要提供學(xué)號和姓名，這個數(shù)據(jù)已經(jīng)有了。

模擬登錄用httpclient 實現(xiàn)。獲取了整個頁面頁面是一個表格顯示記錄。該用什么從頁面里提取數(shù)據(jù)呢？

關(guān)于java web的方向，我只會用jsp 寫一個增刪改查。對于之后的內(nèi)容不是太懂。

我要做這樣一個后臺管理抓取操作用戶查詢返回。該從什么地方開始學(xué)？或者說使用是什么樣的技術(shù)/框架呢？

關(guān)于查詢的網(wǎng)站：有一個元素是跑操次數(shù)。之后的是對應(yīng)的記錄每條記錄顯示跑操時間具體到分鐘。

抓取不是最困難的部分，問題是怎么做一個這樣一個管理系統(tǒng) 對于如何開發(fā)一個完整的web全棧沒有思路。我發(fā)現(xiàn)我不能評論。。。

謝謝！

問題解答

回答1：

我就隨便說個，因為我也沒想到用什么方法。

用Jsoup去爬頁面數(shù)據(jù)，哈哈

回答2：

想到了幾點，簡單說下：1.數(shù)據(jù)抓取，可以自己寫抓取程序，制定數(shù)據(jù)爬取的時間規(guī)則之類的2.數(shù)據(jù)處理，抓取到網(wǎng)頁的內(nèi)容通過jsoup或者其他方式對網(wǎng)頁有效內(nèi)容提取，并設(shè)計數(shù)據(jù)結(jié)構(gòu)，學(xué)號應(yīng)該是唯一的，可以有學(xué)員表和晨跑記錄表，通過學(xué)號進(jìn)行關(guān)聯(lián)3.我的個人理解是按照次數(shù)排序，因為想了下，如果按照時間排序是不合理的，因為是沒有辦法判斷真正的晨跑時間的，那我這里就按次數(shù)來說吧，可以直接在學(xué)員表存放跑步次數(shù)的字段，減少通過記錄表查詢，提高效率，就是需要數(shù)據(jù)處理時維護(hù)此字段

回答3：

一般來說呢，是基于httpclient這樣的工具將返回包拿到，解析報文實體（這里指html頁面），接下來就是利用xpath、正則、類似于jQuery方式解析DOM元素獲取你想要的數(shù)據(jù)（如jsoup包），如果還嫌麻煩可以使用webmagic框架

回答4：

模擬登陸：用瀏覽器打開登陸頁觀察接收學(xué)號密碼的url；模擬登陸時post數(shù)據(jù)到該url；從response的header中解析Set-cookie字段信息；

數(shù)據(jù)抓取：向體育數(shù)據(jù)頁發(fā)起get請求(帶上上一步中拿到的cookie字段)，拿到response，然后進(jìn)行正則解析獲得數(shù)據(jù)即可；

建議：緩存用戶每次查詢的數(shù)據(jù)，比如緩存2個小時，建議使用redis；數(shù)據(jù)庫可以存查詢到的數(shù)據(jù)，先從redis中取數(shù)據(jù)，取不到再模擬登陸拿新數(shù)據(jù)。至于數(shù)據(jù)庫這一層，個人感覺可有可無，有的話也可以進(jìn)行數(shù)據(jù)分析什么的

java

上一條：java - dubbo中session同步問題下一條：java - Android中使用FragmentTransaction對象的add方法后應(yīng)用閃退

相關(guān)文章：

1. mysql優(yōu)化 - mysql count(id)查詢速度如何優(yōu)化?2. python - django 里自定義的 login 方法，如何使用 login_required()3. javascript - git clone 下來的項目想在本地運行 npm run install 報錯4. node.js - node_moduls太多了5. mysql主從 - 請教下mysql 主動-被動模式的雙主配置和主從配置在應(yīng)用上有什么區(qū)別？6. angular.js - 不適用其他構(gòu)建工具，怎么搭建angular1項目7. 主從備份 - 跪求mysql 高可用主從方案8. android-studio - Android 動態(tài)壁紙LayoutParams問題9. python如何不改動文件的情況下修改文件的修改日期10. 在Java中System.out.println 只能在method中使用嗎?

排行榜

					
					主從備份 - 跪求mysql 高可用主從方案
mysql優(yōu)化 - mysql count(id)查詢速度如何優(yōu)化?
javascript - git clone 下來的項目 想在本地運行 npm run install 報錯
angular.js - 不適用其他構(gòu)建工具，怎么搭建angular1項目
python - django 里自定義的  login 方法，如何使用 login_required()
android-studio - Android 動態(tài)壁紙LayoutParams問題
node.js - node_moduls太多了
python如何不改動文件的情況下修改文件的 修改日期
mysql主從 - 請教下mysql 主動-被動模式的雙主配置 和 主從配置在應(yīng)用上有什么區(qū)別？
sql語句如何按or排序取出記錄
css3 - [CSS] 動畫效果 3D翻轉(zhuǎn)bug
				

熱門標(biāo)簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

網(wǎng)頁爬蟲 - 如何使用使用java抓取信息并制作一個排名系統(tǒng)？