爲Nutch編寫插件（索引）

-1

我正在爲nutch編寫一個插件，用於解析文本並根據文本創建一個新字段。爲此，我正在編寫的插件實現了IndexingFilter。我正在按照here（與nutch wiki中的類似）進行教程。我完全按照提及的方式進行操作，並且我成功地構建了插件。但是我沒有看到新的索引被添加。那麼我是初學者，所以我不確定我是否看在正確的地方。爲Nutch編寫插件（索引）

我做正常抓取使用命令

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

然後我在crawldb和段檢查使用命令

bin/nutch readdb crawl/crawldb/ -dump crawlContent 
bin/nutch readseg -dump crawl/segments/* segmentAllContent

我沒有看到新的領域添加在這裏。我做對了嗎？或者是否有任何我需要運行的命令。提前致謝。

代碼：

我複製urlmeta插件的目錄結構，並做出一些改動。

plugin.xml中：

<?xml version="1.0" encoding="UTF-8"?> 
    <plugin id="myPlugin" name="Add Field to Index" 
     version="1.0.0" provider-name="your name"> 

    <runtime> 
     <library name="myPlugin.jar"> 
    <export name="*"/> 
     </library> 
    </runtime> 

    <extension id="org.apache.nutch.indexer.myPlugin" 
     name="Add Field to Index" 
     point="org.apache.nutch.indexer.IndexingFilter"> 
     <implementation id="myPlugin" 
     class="org.apache.nutch.indexer.AddField"/> 
    </extension> 
    </plugin>

的build.xml：

<?xml version="1.0" encoding="UTF-8"?> 
    <project name="myPlugin" default="jar"> 
    <import file="../build-plugin.xml"/> 
    </project>

和其他代碼是相同提到的鏈接。

來源

2012-06-01 CRS

它正在工作。如果其他人面臨類似的問題，那麼我可以發佈我必須做出的改變。 – CRS

如果您有解決方案，您可以並且應該回答您自己的問題。如果有人會問你這個問題，那絕對沒有意義。 – mana

檢查，如果plugin.includes在Nutch的-default.xml中的值包含爲myplugin，像這樣：

PS：你可以和應該回答你自己的問題，如果你有解決方案，在此之後添加一些評論。

來源

2013-12-03 15:20:11

爲Nutch編寫插件（索引）

回答

相關問題