0
我正在使用nutch 1.4來實現重點抓取工具。誰能告訴我如何使用nutch CrawlDbReader,LinkDbReader和SegmentReader API在我的JSP程序,以便我可以爲我的項目創建自定義用戶界面。 具體來說,我需要發出像readdb,readseg等命令到抓取數據並通過瀏覽器獲取輸出。使用CrawlDbReader讀取Nutch抓取數據
我正在使用nutch 1.4來實現重點抓取工具。誰能告訴我如何使用nutch CrawlDbReader,LinkDbReader和SegmentReader API在我的JSP程序,以便我可以爲我的項目創建自定義用戶界面。 具體來說,我需要發出像readdb,readseg等命令到抓取數據並通過瀏覽器獲取輸出。使用CrawlDbReader讀取Nutch抓取數據
有沒有什麼特別的這些API使得這不僅僅是「將數據從服務器傳遞到客戶端」的問題? 您可以使用API來獲取數據。看看它們如何被nutch.sh使用,以及如何構建main()並做類似的事情。然後通過XML或JSON或其他方式將數據傳遞給客戶端。
感謝您的回覆。但是,一旦我嘗試創建一個CrawlDbReader對象並試圖訪問它的方法。試圖完成它的main()函數。但是一些org.hadoop.xxxx包中的某些類不能從我的程序中訪問......任何線索? – Vijith 2012-01-13 10:52:31
檢查你的類路徑。您應該將Hadoop jar添加到項目構建中。 Nutch肯定有它.. – AAaa 2012-01-14 11:35:35
雅得到它..事實上,我在構建路徑中使用另一個eclipse nutch項目。現在我添加了哈瑙罐。現在可以訪問了。謝謝.. – Vijith 2012-01-16 06:06:36