我想刮這個網頁上的評論。刮onclick
http://www.tripadvisor.com/Hotel_Review-g294265-d2309275-Reviews-The_Forest_by_Wangz-Singapore.html
在每次審查的唯一問題是「更多」,它加載的OnClick事件更多的文本。
例如:
<span class="taLnk hvrIE6 tr147826763 moreLink" onclick = " ta.util.cookie.setPIDCookie(2247); ta.call('ta.servlet.Reviews.expandReviews', event,this,'review_147826763', '1', 2247)">
More </span>
如何使用報廢LXML/BeautifulSoup完整的評論文章?
頁面使用JavaScript通過AJAX加載額外的信息。使用瀏覽器開發人員工具來確定爲這些鏈接調用哪些URL,然後直接從Python代碼中調用這些鏈接。 –
有時JavaScript不會調用鏈接,而是調用全局對象。在這種情況下,您需要使用基於JavaScript的刮板。我會建議PhantomJS。 – htmldrum
@MartijnPieters謝謝。你能詳細解釋一下嗎? – Robby