1
A
回答
1
Nutch通過HTTP請求獲取所需頁面的html源代碼。現在,頁面的html源代碼可以包含編碼在其中的下拉列表。如果使用像dojo/ajax這樣的複雜腳本編碼,那麼它將無法像瀏覽器那樣對其進行解釋。如果下拉列表的鏈接直接在html源代碼中看到,那麼nutch將獲得這些網頁的抓取。除了正常的文本內容,Nutch還爲HTML頁面的Java腳本部分進行解析。
現在要驗證這一點,請打開bowser/wget中的頁面。在文本編輯器中查看頁面源碼,如記事本/ vi。你可以在那裏看到下拉框的鏈接嗎?如果是的話,那麼nutch將會抓取那些沒有鏈接的鏈接。
相關問題
- 1. 您是否使用過elasticsearch索引nutch爬行結果?
- 2. nutch爬行路徑
- 3. Apache nutch不再爬行
- 4. 空的Nutch爬行列表
- 5. Nutch問題執行爬行
- 6. 在Nutch中增量爬行
- 7. 無法啓動Nutch爬行
- 8. 獲取Nutch爬行狀態?
- 9. 在Solr中使用Nutch爬蟲
- 10. Nutch的履帶被爬行'作爲€
- 11. 如何使用Nutch的-2.2.1爬行
- 12. 如何給深度的nutch 2.3爬行
- 13. 如何讓apache nutch永久爬取
- 14. 用nutch 1.8爬行不同的網站
- 15. 如何加快在Nutch中爬行
- 16. 的Web爬行使用Solr的Nutch的
- 17. Nutch的不爬整個網站
- 18. 如何讓Nutch的爬蟲抓取
- 19. 是否可以在春天有嵌套窗體(窗體:窗體)
- 20. Nutch爬行沒有錯誤,但結果是沒有
- 21. Windows窗體是否是舊技術?
- 22. 如何檢查窗體是否有任何ShowDialog()窗體打開?
- 23. 檢查一個窗體窗體按鈕是否被激活?
- 24. 根據子窗體是否可見來調整窗體大小
- 25. 是否可以定製Nutch Fetcher課程?
- 26. 在窗口上使用Nutch
- 27. 如何通過在apache nutch中爬行來提取html中specefic div的值?
- 28. 爬蟲是否跳過HTML小標籤中的內容?
- 29. 窗體上的控件是否爲private?
- 30. 是否使用彈簧窗體標籤?