2015-05-19 74 views
0

如何使用Solr對通過nutch爬取獲取的文檔進行語言識別?Solr中用於Nutch文檔的語言檢測

我安裝了Nutch 1.9Solr 4.8.1。 我添加了一個新的核心,名爲"core-test" 通過Solr管理頁面中的Core Admin進行求解,我遵循Solr wiki中的步驟進行文檔索引期間的語言檢測。

我修改schema.xml中在覈心測試/ CONF通過將場

<field name="language_s" type="string" stored="true" indexed="true"/> 

然後,我用Nutch的用於抓取一組網頁的由

crawl seed.txt Test http://localhost:8983/solr/core-test 2 

Nutch的適當地工作,但文件的語言不識別,即我沒有獲得字段language_s當我在http://localhost:8983/solr/#/core-test/query查詢q設置爲":"

回答

2

您需要啓用Nutch的語言檢測功能。 XML標記複製到下面Nutch_HOME/conf/nutch-site.xml

<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|language-identifier</value> </property>

上述標籤能夠與Nutch的捆綁在一起的語言檢測插件。如Nutch's wiki所述,該插件將添加一個名爲「lang」的字段,其中包含文檔的語言代碼。

+0

它的工作原理!謝謝! – eljane

+0

如果有效,請接受我的回答。 – ameertawfik