如何使用Solr對通過nutch爬取獲取的文檔進行語言識別?Solr中用於Nutch文檔的語言檢測
我安裝了Nutch 1.9和Solr 4.8.1。 我添加了一個新的核心,名爲"core-test"
通過Solr管理頁面中的Core Admin進行求解,我遵循Solr wiki中的步驟進行文檔索引期間的語言檢測。
我修改schema.xml中在覈心測試/ CONF通過將場
<field name="language_s" type="string" stored="true" indexed="true"/>
然後,我用Nutch的用於抓取一組網頁的由
crawl seed.txt Test http://localhost:8983/solr/core-test 2
Nutch的適當地工作,但文件的語言不識別,即我沒有獲得字段language_s
當我在http://localhost:8983/solr/#/core-test/query查詢q
設置爲":"
。
它的工作原理!謝謝! – eljane
如果有效,請接受我的回答。 – ameertawfik