我們目前只有英文的工作,我們需要阿拉伯語支持添加到它的SOLR構建沒有太多詳細的Solr維基有關如何使用Solr的索引和搜索阿拉伯文內容
啓動這些都是下面的步驟香港專業教育學院做了
添加以下到schema.xml中
<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
</fieldType>
在定義字段Schema.xml的
<field name="البرتغالية" type="text_general_arabic" indexed="true" stored="true"/>
FYI IVE複製從谷歌的阿拉伯文字在瀏覽器中轉換並粘貼它
後來我一直在使用記事本作爲Unicode文件創建一個CSV文件並將其保存爲Arabic.csv,它有它的字段名作爲
البرتغالية
當我使用以下cURL命令
D:\>curl http://localhost:8080/solr/coll9/update/csv -F "stream.file=D:\Arabic.csv" -F "commit=true" -F "optimize=true"
-F "encapsulate="" -F "keepEmpty=true"
嘗試索引文件
即時得到一個未定義場的錯誤,我不知道我在哪裏做錯了
更新:當我嘗試用一個XML文件,而不是它是如此的第一個工作日
由於XML文件正在運行,您可以使用該方法而不是csv文件嗎? –
不,我必須使用csv什麼是錯誤的我的上述方法我甚至已啓用我的Tomcat服務器上的UTF-8 – Mitra