1
我是wsj的付費會員,我試圖取消文章以執行我的NLP項目。我以爲我保留了會議。通過請求,CURL和BeautifulSoup形成wsj的廢品文章
rs = requests.session()
login_url="https://sso.accounts.dowjones.com/login?client=5hssEAdMy0mJTICnJNvC9TXEw3Va7jfO&protocol=oauth2&redirect_uri=https%3A%2F%2Faccounts.wsj.com%2Fauth%2Fsso%2Flogin&scope=openid%20idp_id&response_type=code&nonce=18091b1f-2c73-4a93-ab10-77b0d4d4f9d3&connection=DJldap&ui_locales=en-us-x-wsj-3&mg=prod%2Faccounts-wsj&state=NfljSw-Gz-TnT_I6kLjnTa2yxy8akTui#!/signin"
payload={
"username":"[email protected]",
"password":"myPassword",
}
result = rs.post(
login_url,
data = payload,
headers = dict(referer=login_url)
)
這篇文章我想解析。
r = rs.get('https://www.wsj.com/articles/singapore-prime-minister-lee-rejects-claims-he-misused-state-powers-in-family-feud-1499094761?tesla=y')
然後我發現的HTML仍然是一個非會員
我還通過使用CURL保存Cookie後我登錄
curl -c cookies.txt -I "https://www.wsj.com"
curl -v cookies.txt "https://www.wsj.com/articles/singapore-prime-minister-lee-rejects-claims-he-misused-state-powers-in-family-feud-1499094761?tesla=y" > test.html
結果是嘗試的另一種方法相同。
我並不十分熟悉驗證機制如何在瀏覽器後面工作。有人可以解釋爲什麼上述兩種方法都失敗了,我應該如何解決它以實現我的目標。非常感謝你。
我在網絡中觀看標題,並複製這些cookie,它的工作原理。你的解釋更清楚地說明網絡背後發生了什麼 – Netjimmy