2016-03-30 70 views
0

我成功地將網頁鏈接和索引數據抓取到solr。
但我需要爲所有鏈接創建一個pdf文件,該鏈接將被抓取並索引到Solr中。 我知道幻影會給我pdf,但我不明白我在哪裏配置幻影Nutch。 我搜索了一下,我知道我需要自定義Nutch的Fetcher類,但我不知道如何定製它。 請任何人都可以幫忙。我從最近兩週就陷入了這個問題。是否可以定製Nutch Fetcher課程?

+0

可否請你澄清多一點,這是很難理解是你想在這裏實現什麼樣的任務。你想要列出你到目前爲止已經爬過的所有網址嗎? –

+0

@SujenShah我想爲所有的網址創建pdf,這個網址將被nutch抓取。所以我需要知道在哪個類中我需要改變,所以它會創建pdf。(我使用phantomjs來創建pdf)。因爲我知道只有我需要把代碼放在創建PDF的任何類中,但直到現在我沒有找出課程。 –

回答

0

你看過以csv格式轉儲crawldb嗎?我認爲你可以實現你的任務(我的理解是獲得所有網址列表,由Nutch抓取),無需修改任何代碼並遵循以下內容。

你可以使用./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv

這個命令會給你在Nutch的獲取/未提取的所有URL。 一旦你在csv中獲得它,你可以很容易地將它導出爲pdf。

有關命令的詳細信息看看https://wiki.apache.org/nutch/bin/nutch%20readdb

+0

其實我的任務是我需要爲所有將被nutch抓取的URL創建pdf文件,並且當創建URL的pdf時,我需要將該PDF路徑存儲到HBASE中,並且將索引到solr。 –