我成功地將網頁鏈接和索引數據抓取到solr。
但我需要爲所有鏈接創建一個pdf文件,該鏈接將被抓取並索引到Solr中。 我知道幻影會給我pdf,但我不明白我在哪裏配置幻影Nutch。 我搜索了一下,我知道我需要自定義Nutch的Fetcher類,但我不知道如何定製它。 請任何人都可以幫忙。我從最近兩週就陷入了這個問題。是否可以定製Nutch Fetcher課程?
0
A
回答
0
你看過以csv格式轉儲crawldb嗎?我認爲你可以實現你的任務(我的理解是獲得所有網址列表,由Nutch抓取),無需修改任何代碼並遵循以下內容。
你可以使用./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv
這個命令會給你在Nutch的獲取/未提取的所有URL。 一旦你在csv中獲得它,你可以很容易地將它導出爲pdf。
+0
其實我的任務是我需要爲所有將被nutch抓取的URL創建pdf文件,並且當創建URL的pdf時,我需要將該PDF路徑存儲到HBASE中,並且將索引到solr。 –
相關問題
- 1. 是否可以有私人課程?
- 2. 是否可以上課?
- 3. Nutch Fetcher中止與N掛線
- 4. Nutch Fetcher:獲取的網址數量persecond
- 5. 是否可以讓Nutch抓取遠程Windows機器?
- 6. 具有所有私人成員的課程是否可以成爲POD課程?
- 7. 是否有可能有私人課程?
- 8. 定製Nutch的
- 9. 確定課程時間是否衝突
- 10. 如何檢查課程是否定義?
- 11. 是否可以制定開發成本?
- 12. 是否可以監聽其他課程觸發的事件?
- 13. 是否可以在iOS中定製UITableViewCellSelectionStyleMyColor?
- 14. 是否可以在gtktreeview中定製gtkwidget?
- 15. 是否可以自定義繪製ListViewGroup
- 16. 是否可以製作應用程序
- 17. 是否可以用二進制編程?
- 18. 課程課程特定日期特定課時無課程
- 19. 是否可以切入第三方課堂,以及如何?
- 20. 是否可以限制Bookmarklet?
- 21. 是否可以強制在特定的CPU上運行例程?
- 22. 通常使重量級課程不可複製是否是良好的做法?
- 23. nutch是否爬過窗體?
- 24. PropertyGrid - 它是否可定製?
- 25. 是否可以確定當前線程是否爲「調試器」?
- 26. 它是否可以鎖定?
- 27. 是否可以綁定Grid.RowProperty。
- 28. 是否可以寫tizen可穿戴定製發射器?
- 29. opta規劃師課程課程指定課程特定房間
- 30. 是否可以確定指定顏色的十六進制值?
可否請你澄清多一點,這是很難理解是你想在這裏實現什麼樣的任務。你想要列出你到目前爲止已經爬過的所有網址嗎? –
@SujenShah我想爲所有的網址創建pdf,這個網址將被nutch抓取。所以我需要知道在哪個類中我需要改變,所以它會創建pdf。(我使用phantomjs來創建pdf)。因爲我知道只有我需要把代碼放在創建PDF的任何類中,但直到現在我沒有找出課程。 –