Q

Solr中用於Nutch文檔的語言檢測

2015-05-19 74 views 0 likes

0

如何使用Solr對通過nutch爬取獲取的文檔進行語言識別？Solr中用於Nutch文檔的語言檢測

我安裝了Nutch 1.9和Solr 4.8.1。我添加了一個新的核心，名爲"core-test" 通過Solr管理頁面中的Core Admin進行求解，我遵循Solr wiki中的步驟進行文檔索引期間的語言檢測。

我修改schema.xml中在覈心測試/ CONF通過將場

<field name="language_s" type="string" stored="true" indexed="true"/>

然後，我用Nutch的用於抓取一組網頁的由

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch的適當地工作，但文件的語言不識別，即我沒有獲得字段language_s當我在http://localhost:8983/solr/#/core-test/query查詢q設置爲":"。

2015-05-19 eljane

A

回答

2

您需要啓用Nutch的語言檢測功能。 XML標記複製到下面Nutch_HOME/conf/nutch-site.xml：

<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|language-identifier</value> </property>

上述標籤能夠與Nutch的捆綁在一起的語言檢測插件。如Nutch's wiki所述，該插件將添加一個名爲「lang」的字段，其中包含文檔的語言代碼。

2015-05-19 20:35:11 ameertawfik

+0

它的工作原理！謝謝！ – eljane

+0

如果有效，請接受我的回答。 – ameertawfik

相關問題

11. 語言檢測
12. Python中的文本語言檢測
13. 在android中檢測文本的語言
14. 用於語言檢測推文的快速Java庫？
15. Nutch中的文檔句子
16. 語言檢測器
17. ANN：語言檢測
18. 檢測Facebook語言
19. CLI語言檢測
20. 檢測iOS語言
21. Nutch/Solr - 文檔中至少包含一個巨大詞條=「content」
22. Powerbuilder語言文檔
23. 的.htaccess的語言檢測
24. SOLR術語中的文檔是什麼？
25. 極短文本的語言檢測
26. 檢測郵件正文的語言
27. 測試Solr中存在的文檔
28. 檢測NSString的語言
29. 較短的語言檢測
30. Drupal + Nutch + Solr