我正在爲Tripadvisor,使用crawler4j寫一個履帶式的。我需要收集項目的所有評論,但指向「下一個」評論(帶數字的評論)的鏈接並沒有鏈接,而是一個javascript函數。此功能在Tripadvisor的服務器中定義。有沒有一種方法來評估這些功能,並獲得他們返回的頁面?Crawler4j和Tripadvisor
0
A
回答
0
0
您可以使用HTMLUnit獲取頁面內容。該庫可用於運行所有JavaScript代碼,然後獲取頁面代碼進行操作。
以下是一個示例code,取自一個關於stackoverflow的問題。
HtmlElement element4 = null;
Iterable<HtmlElement> iterable5 = page.getAllHtmlChildElements();
Iterator<HtmlElement> i6 = iterable5.iterator();
while(i6.hasNext() {
HtmlElement anElement = i6.next();
if(anElement instanceof HtmlImage) {
HtmlImage input = (HtmlImage) anElement;
String[] elements = "http://example.com/pages/powerbutton.png".split("/");
if(input.getSrcAttribute().indexOf(elements[elements.length-1])> -1){
element4 = input;
break;
}
}
}
HtmlPage page = element4.click();
相關問題
- 1. Crawler4j - NoSuchMethod getOutgoingUrls()
- 2. crawler4j的實現
- 3. 不能與Crawler4j
- 4. Python Scrapy - Ajax分頁Tripadvisor
- 5. 用xpath在Tripadvisor刮刮棗
- 6. 審查刮形式tripadvisor
- 7. 使用crawler4j爬行和提取信息
- 8. 安裝指南crawler4j
- 9. 使用crawler4j獲取鏈接文本鏈接時使用crawler4j
- 10. crawler4j中的NoSuchMethodError CrawelController類
- 11. Crawler4j缺少傳出鏈接?
- 12. 在crawler4j上確定參數
- 13. Crawler4j - 獲取異常java.lang.NoSuchMethodError
- 14. crawler4j中WebCrawler的參數
- 15. Crawler4j不能AJAX爬行
- 16. crawler4j只抓取種子URL
- 17. Crawler4j ImageCrawler字符串ARGS
- 18. 屏幕抓取tripadvisor與張貼請求
- 19. 從TripAdvisor抓取動態加載圖像
- 20. Tripadvisor網頁抓取使用python
- 21. tripadvisor刮臉餐廳的網址和電子郵件
- 22. Crawler4j在shouldVisit()和visit()方法中顯示不同的URL名稱
- 23. StatisticsDB在Crawler4j中做些什麼?
- 24. 使用crawler4j進行身份驗證
- 25. 爲什麼crawler4j示例會出錯?
- 26. 如何更改Crawler4j中的默認crawlStorageFolder?
- 27. crawler4J高效設計獲取數據
- 28. 使用crawler4j下載js文件
- 29. crawler4j獲取完整父列表
- 30. Crawler4j只訪問網址種子