您可以使用ghost.py直接與頁面上的JavaScript進行交互,而不是嘗試對其進行反向工程。
如果您在Chrome控制檯中運行以下查詢,您會看到它會返回所需的所有內容。
document.getElementsByClassName('inline-text-org');
返回
[<div class="inline-text-org" title="University of Manchester">University of Manchester</div>,
<div class="inline-text-org" title="University of California Irvine">University of California ...</div>
etc...
您可以通過蟒使用ghost.py現實生活中的DOM運行JavaScript。
這是真的很酷:
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
"document.getElementsByClassName('inline-text-org');")
「只是問」?您的鏈接導致2011年的線程。 - 無論如何,歡迎來到SO。感興趣的主題和你的回答,我+1 – eyquem
你是完全正確的,我甚至沒有找到日期...... *慚愧* 感謝您的熱烈歡迎,但! – danstaaar