我是Apache Nutch的新手,我想從mysql數據庫動態注入URL。 Apache Nutch是否提供這種可能性?如果沒有,是否有我可以學習的類似實驗?或者有什麼建議?注入網址到Apache Nutch從MySQL而不是seed.txt
2
A
回答
1
Nutch 1.x =>不開箱即用。你必須修改Injector代碼,以便從MySQL讀取,但這當然是可行的。我很早以前就爲一個客戶做過這件事。
另外,你可以使用StormCrawler,它有一個MySQL模塊,應該沒有額外的工作來讓它工作。我們博客上的Cloudsearch tutorial顯示瞭如何在SC上使用MySQL。
Nutch 2.x使用GORA作爲中間層,IIRC有一個SQL插件。不確定其狀態以及這是否合適。
3
由於Julien說你應該修改INJECTOR代碼來實現這一點。不過,我可以爲此提出解決方法。您可以使用命令bin/nutch startserver在服務器模式下使用NUTCH,然後從數據庫加載您的種子URL。然後,您可以使用Nutch REST API使用從數據庫加載的URL創建種子列表,並將創建的種子文件指向INJECT作業創建服務調用。
你可以找到關於此REST API的詳細信息: -
http://nutch.apache.org/miredot/1.12/index.html#1153761698 或 https://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI
相關問題
- 1. 即使URL從seed.txt中刪除(Nutch 2.1)
- 2. 除了我使用Apache Nutch的1.12,我試圖抓取的網址在seed.txt
- 3. Nutch沒有抓取seed.txt中的所有網址
- 4. Nutch 2.1網址注入需要永久
- 5. 索引網址使用nutch注入網址內容
- 6. bin/nutch注入抓取/ crawldb網址不起作用
- 7. apache nutch不抓取網站
- 8. 只生成未取得的網址而不是得分Nutch 2.3
- 9. 如何或在哪裏運行$ ./nutch注入抓取/ crawldb網址
- 10. 如何注入在爬到nutch種子列表中發現的網址
- 11. nutch注入hbase NoSuchMethodError
- 12. xmlhttp從變量,而不是網址 - javascript
- 13. 如何使用Apache Nutch抓取有空間的網址?
- 14. 將Apache Tika應用於Solr而不是Nutch有什麼好處
- 15. apache nutch履帶 - 保持只檢索單個網址
- 16. 什麼是插入+進入網址,而不是例如空間
- 17. PHP get_headers不是本地的Apache網址
- 18. 爲什麼Nutch(v2.3)只抓取種子網址,而不抓取整個網站?
- 19. Apache nutch不再爬行
- 20. 網址是&,而不是搜索引擎處理的網址?
- 21. Apache Nutch REST api
- 22. 我正在關注的Nutch的教程,並得到了「沒有網址可獲取」錯誤
- 23. node.js/express/mongodb而不是apache/mysql?
- 24. 從FB Connected網站註銷而不是從主FB網站註銷
- 25. Apache Nutch 2.3:不會注入URL(掛起)&hadoop日誌顯示警告
- 26. file_get_contents使用直接輸入的網址,而不是自動獲得的網址
- 27. MySQL的內容載入網址到表
- 28. 將圖像從網址(而不是數據庫)加載到網站上
- 29. Nutch:獲取每個網址的種子網址
- 30. 網址注入問題與PHP網站
朱利安您好,感謝您的回答。我只對Nutch感興趣。是的,在Gora支持apache nutch 2.3.1中有一個mysql插件,但我認爲它僅用於存儲數據而不用於URL輸入。我不確定當我取消註釋mysql和mongodb時(如果我只想將結果保存在mongodb中)會發生什麼情況。 – Sparkan
取消註釋可能會導致一個可愛的混亂我猜;-)。如果我是你,我會堅持使用Nutch 1.x(更好的性能,更少的配置等),並編寫一個定製的Injector。無論如何,你必須對Nutch2.x進行同樣的處理,除非你使用與GORA相同的序列化來處理你的種子,這可能不是你想要的。 –