2012-06-01 25 views
-1

我正在爲nutch編寫一個插件,用於解析文本並根據文本創建一個新字段。爲此,我正在編寫的插件實現了IndexingFilter。我正在按照here(與nutch wiki中的類似)進行教程。我完全按照提及的方式進行操作,並且我成功地構建了插件。但是我沒有看到新的索引被添加。那麼我是初學者,所以我不確定我是否看在正確的地方。爲Nutch編寫插件(索引)

我做正常抓取使用命令

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

然後我在crawldb和段檢查使用命令

bin/nutch readdb crawl/crawldb/ -dump crawlContent 
bin/nutch readseg -dump crawl/segments/* segmentAllContent 

我沒有看到新的領域添加在這裏。我做對了嗎?或者是否有任何我需要運行的命令。提前致謝。

代碼:

我複製urlmeta插件的目錄結構,並做出一些改動。

plugin.xml中:

<?xml version="1.0" encoding="UTF-8"?> 
    <plugin id="myPlugin" name="Add Field to Index" 
     version="1.0.0" provider-name="your name"> 

    <runtime> 
     <library name="myPlugin.jar"> 
    <export name="*"/> 
     </library> 
    </runtime> 

    <extension id="org.apache.nutch.indexer.myPlugin" 
     name="Add Field to Index" 
     point="org.apache.nutch.indexer.IndexingFilter"> 
     <implementation id="myPlugin" 
     class="org.apache.nutch.indexer.AddField"/> 
    </extension> 
    </plugin> 

的build.xml:

<?xml version="1.0" encoding="UTF-8"?> 
    <project name="myPlugin" default="jar"> 
    <import file="../build-plugin.xml"/> 
    </project> 

和其他代碼是相同提到的鏈接。

+0

它正在工作。如果其他人面臨類似的問題,那麼我可以發佈我必須做出的改變。 – CRS

+0

如果您有解決方案,您可以並且應該回答您自己的問題。如果有人會問你這個問題,那絕對沒有意義。 – mana

回答

2

檢查,如果plugin.includes在Nutch的-default.xml中的值包含爲myplugin,像這樣:

爲myplugin |協議HTTP | urlfilter正則表達式| parse-(文| HTML | JS)|指數 - 基本|查詢 - (基本|網站|網址)|彙總基本|記分OPIC | urlnormalizer-(通|正則表達式|基本)

PS: 你可以和應該回答你自己的問題,如果你有解決方案,在此之後添加一些評論。