python-3.x - 关于使用请求登录网站的另一个问题
问题描述
我被困住了。在第一次从登录页面登录后,我正在尝试遵循我能找到的关于使用 Python 3 的请求库访问网页的每个示例。这里的关键是我正在尝试创建一个工作工具,所以我无法提供指向我正在使用的确切网页的链接,但我可以显示页面中的源代码以提供帮助。希望有人能告诉我我需要用我在这里提供的东西做什么?
我认为我坚持(我认为)是,有一个名为“__RequestVerificationToken”的隐藏输入随着每个新的登录页面加载/刷新而动态变化,我知道它需要与“发布”一起登录凭据,但到目前为止我看到的每个教程都是这样的:
- 使用Requests和BS4首先访问和解析登录页面的源代码,找到那个唯一的token值
- 使用该唯一令牌值发送发布请求
但问题是(我认为),这两个请求之间的令牌值会发生变化,从而使第一个请求过时。
页面凭证部分的源代码(以及一些我不确定是否需要,但无论如何都包含在内的加密功能)如下所示。它运行时没有“错误”,但我想在登录后访问的页面看起来与登录页面代码相同,表示它没有成功登录:
[![Login_Creds][1]][1]
<form action="/Login" id="form-login" method="post"><input name="__RequestVerificationToken" type="hidden" value="3s5_lA2VJBP3XTpl_YE3zkxcZarbGUuCZfHbm0oJ3nvQweIKorZXnein-YBQnrouX9VVLVc0qw2gvOVIE8-IxLdd9kALEFVpb4RA4z1Ed7k1" /> <div id="message-sessionexpired" class="usermessage-login ui-widget-content ui-corner-all h-column" style="display: none">
<div class="v-column first">
<i class="ci-icon-info-sign ci-icon" id="128824"></i>
</div>
<div class="v-column last">
We thought you left, so for your security we signed you out.
Please sign back in below.
</div>
</div>
<div id="message-userloggedout" class="usermessage-login ui-widget-content ui-corner-all h-column" style="display: none">
<div class="v-column first">
<i class="ci-icon-info-sign ci-icon table-cell" id="128825"></i>
</div>
<div class="v-column last">
You signed in with a different user in a new tab.
Please use the new tab or sign back in below.
</div>
</div>
<table>
<tr>
<td>
<label for="login-email">User Name (email)</label>
</td>
<td>
<input class="input-login" id="login-email" name="email" type="text" value="" />
</td>
</tr>
<tr>
<td>
<label for="login-password">Password</label>
</td>
<td>
<input autocomplete="on" class="ci-textbox input-login" id="login-password" name="password" type="password" value="" />
</td>
</tr>
<tr>
<td colspan="2" style="text-align: center">
<input id="login-passhash" name="passhash" type="hidden" value="" />
</td>
</tr>
<tr>
<td colspan="2" style="text-align: right">
<button class="ci-button" id="button-login" title="Version 4.4.86.17690" type="submit" value="Login">Login<script for="button-login" temporary="true" type="text/javascript">button_login=new Button("#button-login",{disabled:!1});$(function(){button_login.init();$("#button-login").off("click.centralui");$("#button-login").on("click.centralui",function(n){$(this).is(":disabled")||n.isDefaultPrevented()||$("#form-login").loader().show({message:"",focusInput:!1});$(this).is(":disabled")||n.isDefaultPrevented()||encryptPassword()})})</script></button>
</td>
</tr>
<tr>
<td colspan="2">
<a class="smaller" href="/ResetPassword?Length=5" id="link-forgotpassword">Forgot your password?</a>
</td>
</tr>
<tr>
<td colspan="2">
</td>
</tr>
</table>
<br />
<div class="validation-summary-valid" data-valmsg-summary="true"><ul><li style="display:none"></li>
</ul></div></form>
<script type="text/javascript">
$(function () {
if (sessionStorage.expired == "true") {
$("#message-sessionexpired").css("display", "flex");
sessionStorage.expired = false;
}
if (sessionStorage.userLoggedOut == "true") {
$("#message-userloggedout").css("display", "flex");
sessionStorage.userLoggedOut = false;
}
});
function encryptPassword() {
var clearPass = $("#login-password").val();
$("#login-passhash").val(null);
var publicKeyExponent = Base64.decode("EXPONENT_STRING_HERE");
if (publicKeyExponent != false) {
var publicKeyModulus = Base64.decode("DECODE_STRING_IS_HERE");
var publicKey = new RSAPublicKey(publicKeyModulus, publicKeyExponent);
var encryptedPass = RSA.encrypt(clearPass, publicKey);
$("#login-passhash").val(encryptedPass);
$("#login-password").val(null);
}
}
</script>
到目前为止我尝试过的代码是这样的:
import requests
from bs4 import BeautifulSoup
USERNAME = 'USERNAME'
PASSWORD = 'PASSWORD'
LOGIN_URL = "BASEURL/Login" # /Login from the "<form action" part of login source code
PRIVATE_URL = "BASEURL/PAGE_AFTER_LOGIN"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/IP_HERE Safari/537.36'}
def main():
sess = requests.session()
# Get login "hidden_token" first
html = sess.get(LOGIN_URL)
soup = BeautifulSoup(html.content,'html.parser')
hidden_token = soup.find('input', {'name': '__RequestVerificationToken'}).get('value')
# Create payload
payload = {
"username": USERNAME,
"password": PASSWORD,
"__RequestVerificationToken": hidden_token
}
# Perform login
html = sess.post(LOGIN_URL, data=payload, headers=headers)
# Scrape url
html = sess.get(PRIVATE_URL, headers=headers)
print(html) # Response
print(html.text) # Source Code for after logged in page
if __name__ == '__main__':
main()
考虑到这些数据,除了使用 Selenium 之外,我还能尝试什么?同样,我无法提供确切的 URL,只是在寻找一些指导。谢谢!
更新 经过一番挖掘,事实证明我的怀疑是正确的,当我从第一个“get”请求和“post”请求中打印出 cookie 时,“__RequestVerificationToken”是不同的。那么有没有办法以某种方式从“post”命令提交该令牌值?[1]:https ://i.stack.imgur.com/85yAO.png
解决方案
我猜您对请求之间的令牌更改是正确的事实的预感。很可能会根据 cookie 生成一个新令牌。如果服务器看到一个新用户(又名新会话 cookie),那么它将生成另一个__RequestVerificationToken
.
每个登录方式都有自己的不同,但我建议您尝试以下方法
GET(login_url) -> extract cookies from response object, extract __RequestVerificationToken
POST(login_url, data = (user, passw, token), cookies = extracted_cookies) -> extract cookies again
当您使用相同的 cookie 发布请求时,服务器可能不会更改令牌。
登录后,再次提取 cookie 并进行比较。(有时服务器会在您登录后分配一组新的 cookie )。祝你好运!
推荐阅读
- discord.js - 在 guild.roles 中获取未定义
- django - 模板中的 Django _set.all 具有一对多关系
- r - 在 R 中生成具有指定样本大小和概率的随机样本数据
- c++ - 打印 C++ 哈希表的问题
- lua - 有没有一种简单的方法可以将 lua 表转换为 C++ 数组或向量?
- r - 如何创建一个函数来计算每个数据列、每个数据因子的中位数和四分位数?
- javascript - 在绘制新表格页面之前滚动到视图触发器(具有副作用的事件处理程序)
- python - Pycharm 没有显示任何输出
- vb.net - 如何使用“关键字”退出循环
- php - Laravel 通知 - Mailgun - Outlook 中的“代表”