python模擬登陸網(wǎng)站的示例
使用瀏覽器登陸,獲取瀏覽器中的cookie信息,來進(jìn)行登陸。
我們以博客園為例,先登錄博客園賬號(hào)。我們訪問隨筆列表,在控制臺(tái)我們可以看到我們登陸后瀏覽器的cookie
剔除一些數(shù)據(jù)統(tǒng)計(jì)及分析的cookie,剩下的就是登陸可能需要的.CNBlogsCookie和.Cnblogs.AspNetCore.Cookies
# _ga google分析 cookie# UM_distinctid 友盟cookie# CNZZxxx CNZZcookie# __utma,__utmc,__utmz google統(tǒng)計(jì)網(wǎng)站# Hm_lvt_xxx 百度統(tǒng)計(jì)網(wǎng)站
import urllib.requesturl = ’https://i.cnblogs.com/posts’user_agent = ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36’#瀏覽器登錄后得到的cookie,也就是剛才復(fù)制的字符串cookie_str = ’.CNBlogsCookie=xxx; .Cnblogs.AspNetCore.Cookies=xxx’headers = { ’User-Agent’: user_agent, ’cookie’:cookie_str}req = urllib.request.Request(url,headers=headers)resp = urllib.request.urlopen(req).read().decode(’utf-8’)print(resp)
登陸的表單一般是使用的form data,現(xiàn)在也有些表單使用request payload使用json格式傳參。
form data如藥智網(wǎng)
request payload如博客園
博客園的登陸需要拖動(dòng)驗(yàn)證所以略過。我們以藥智網(wǎng)為例,我們打開控制臺(tái)可以看到登陸需要傳的表單參數(shù),這里是使用的form data表單。我們模擬登陸后獲取到登陸后的cookie,然后訪問登錄后的個(gè)人中心頁面。
import urllib.requestimport http.cookiejarurl = ’https://www.yaozh.com/login’user_agent = ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36’# formData數(shù)據(jù)data = {’username’: ’用戶名’, ’pwd’: ’密碼’, ’formhash’: ’C3086BBA84’, ’backurl’: ’https%3A%2F%2Fwww.yaozh.com%2F’}post_data = urllib.parse.urlencode(data).encode(’utf-8’)# 請求頭設(shè)置headers = { ’User-Agent’: user_agent}# 構(gòu)造登陸請求req = urllib.request.Request(url, headers=headers, data=post_data)# cookiecookie = http.cookiejar.CookieJar()# 構(gòu)造一個(gè)opener攜帶登錄后的cookieopener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))# 發(fā)送登陸請求resp = opener.open(req)print(resp)# 登錄后個(gè)人中心url = ’https://www.yaozh.com/member/’# 構(gòu)造訪問請求req = urllib.request.Request(url, headers=headers)resp = opener.open(req).read().decode(’utf-8’)print(resp)
如果登陸需要request payload我們需要將參數(shù)轉(zhuǎn)為json字符串并在頭部設(shè)置Content-Type
import json...data = {’loginType’: ’1’, ’pwdOrVerifyCode’: ’密碼’, ’userIdentification’: ’賬號(hào)’, ’uaToken’: ’’, ’webUmidToken’:’’}headers = { ’Content-Type’: ’application/json;charset=UTF-8’, ’User-Agent’: user_agent}req = urllib.request.Request(url, headers=headers, data=json.dumps(data))...登陸后用session保持登陸狀態(tài)
我們用requests模塊的Session對(duì)象來保存回話信息
import requestsurl = ’https://www.yaozh.com/login’user_agent = ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36’# formData數(shù)據(jù)data = {’username’: ’chenjy1225’, ’pwd’: ’19931225yjy’, ’formhash’: ’C3086BBA84’, ’backurl’: ’https%3A%2F%2Fwww.yaozh.com%2F’}#構(gòu)造Sessionsession = requests.Session()# 發(fā)送post請求resp = session.post(url, data)# 登錄后個(gè)人中心url = ’https://www.yaozh.com/member/’# 發(fā)送請求訪問個(gè)人中心resp = session.get(url).content.decode(’utf-8’)print(resp)
我們也可以在程序中調(diào)用一個(gè)瀏覽器來訪問登陸網(wǎng)站。在python中使用Selenium庫就能輕松實(shí)現(xiàn)調(diào)用瀏覽器,被控制的瀏覽器可以是chrome、firefox等。以前較常用的還是PhantomJS但是PhantomJS被python棄用了。
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox insteadwarnings.warn(’Selenium support for PhantomJS has been deprecated, please use headless ’
firefox對(duì)應(yīng)的geckodriver
chrome對(duì)應(yīng)的chrnpm.taobao.org/mirrors/chromedriveromedriver
1.下載Selenium、firefox瀏覽器及firefox驅(qū)動(dòng)。
2.將下載的firefox驅(qū)動(dòng)geckodriver放在firefox瀏覽器安裝目錄
3.將firefox瀏覽器安裝目錄添加到path中
4.重啟ide
我們找到需要登陸時(shí)候輸入的元素id及登陸button id。
from selenium import webdriverimport time# 新建selenium瀏覽器對(duì)象,后面是geckodriver.exe下載后本地路徑browser = webdriver.Firefox()url = ’https://www.yaozh.com/login’# 瀏覽器訪問登錄頁面browser.get(url)# 等待3s用于加載腳本文件browser.implicitly_wait(3)# 輸入用戶名username = browser.find_element_by_id(’username’)username.send_keys(’chenjy1225’)# 輸入密碼password = browser.find_element_by_id(’pwd’)password.send_keys(’19931225yjy’)# 點(diǎn)擊登錄按鈕login_button = browser.find_element_by_id(’button’)login_button.submit()# 網(wǎng)頁截圖browser.save_screenshot(’screenshot.png’)# 強(qiáng)制等待5s,等待登錄后的跳轉(zhuǎn)time.sleep(5)url = ’https://www.yaozh.com/member/’browser.get(url)# 網(wǎng)頁截圖個(gè)人中心browser.save_screenshot(’screenshot1.png’)# 關(guān)閉瀏覽器browser.quit()
screenshot.png:
screenshot1.png:
以上就是python模擬登陸網(wǎng)站的示例的詳細(xì)內(nèi)容,更多關(guān)于python模擬登陸網(wǎng)站的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!
相關(guān)文章:
1. ASP基礎(chǔ)入門第三篇(ASP腳本基礎(chǔ))2. PHP循環(huán)與分支知識(shí)點(diǎn)梳理3. 解析原生JS getComputedStyle4. 無線標(biāo)記語言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁5. ASP刪除img標(biāo)簽的style屬性只保留src的正則函數(shù)6. ASP實(shí)現(xiàn)加法驗(yàn)證碼7. 讀大數(shù)據(jù)量的XML文件的讀取問題8. css代碼優(yōu)化的12個(gè)技巧9. 利用CSS3新特性創(chuàng)建透明邊框三角10. 前端從瀏覽器的渲染到性能優(yōu)化
