我正在爲nutch編寫一個插件,用於解析文本並根據文本創建一個新字段。爲此,我正在編寫的插件實現了IndexingFilter。我正在按照here(與nutch wiki中的類似)進行教程。我完全按照提及的方式進行操作,並且我成功地構建了插件。但是我沒有看到新的索引被添加。那麼我是初學者,所以我不確定我是否看在正確的地方。爲Nutch編寫插件(索引)
我做正常抓取使用命令
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
然後我在crawldb和段檢查使用命令
bin/nutch readdb crawl/crawldb/ -dump crawlContent
bin/nutch readseg -dump crawl/segments/* segmentAllContent
我沒有看到新的領域添加在這裏。我做對了嗎?或者是否有任何我需要運行的命令。提前致謝。
代碼:
我複製urlmeta插件的目錄結構,並做出一些改動。
plugin.xml中:
<?xml version="1.0" encoding="UTF-8"?>
<plugin id="myPlugin" name="Add Field to Index"
version="1.0.0" provider-name="your name">
<runtime>
<library name="myPlugin.jar">
<export name="*"/>
</library>
</runtime>
<extension id="org.apache.nutch.indexer.myPlugin"
name="Add Field to Index"
point="org.apache.nutch.indexer.IndexingFilter">
<implementation id="myPlugin"
class="org.apache.nutch.indexer.AddField"/>
</extension>
</plugin>
的build.xml:
<?xml version="1.0" encoding="UTF-8"?>
<project name="myPlugin" default="jar">
<import file="../build-plugin.xml"/>
</project>
和其他代碼是相同提到的鏈接。
它正在工作。如果其他人面臨類似的問題,那麼我可以發佈我必須做出的改變。 – CRS
如果您有解決方案,您可以並且應該回答您自己的問題。如果有人會問你這個問題,那絕對沒有意義。 – mana