1
apache nutch可以在按鈕點擊並索引後從url下載文件嗎?apache nutch文件下載按鈕點擊後
示例 - 假設網址爲http://example.com 單擊http://example.com上的按鈕並保存後,會下載文件。我們如何在Apache nutch中做到這一點。
apache nutch可以在按鈕點擊並索引後從url下載文件嗎?apache nutch文件下載按鈕點擊後
示例 - 假設網址爲http://example.com 單擊http://example.com上的按鈕並保存後,會下載文件。我們如何在Apache nutch中做到這一點。
這實際上取決於按鈕的實現方式,如果下載操作僅僅是直接文件的鏈接,它應該可以正常工作。如果下載動作通過一些javascript事件發生,或者以一個帶有<button>
元素的形式發生,那麼Nutch不會檢測到這一點。也許使用protocol-selenium
可以幫助如果鏈接是使用一些JavaScript生成的。
編輯
由於按鍵觸發像onclick事件,那麼你最好的選擇是使用protocol-interactiveselenium
(https://github.com/apache/nutch/blob/master/src/plugin/protocol-interactiveselenium/README.md)或許實現自定義處理程序,如果你需要。我沒有親自測試過,但應該工作。
感謝Jorge :),下載文件的超鏈接在頁面加載後通過javascript附加到按鈕上,這就是爲什麼要面對這個問題。我曾嘗試在nutch-default.xml中使用selenium插件,但沒有運氣:( – ammu