0
我已經經歷有點狐猴索引教程這裏:狐猴試圖索引文件時獲取畸形的文檔錯誤
http://www.lemurproject.org/tutorials/begin_indexing-1.php
我創建了一個「文集」的文件夾,包含一個文件用看似正確格式的文件:
<DOC>
<DOCNO>1</DOCNO>
<TEXT>
Here is some text
</TEXT>
</DOC>
並創建了以下配置文件:
<parameters>
<corpus>
<path>C:\Users\Tristan\Documents\lemur\corpus</path>
<class>trectext</class>
</corpus>
<memory>256m</memory>
<index>C:\Users\Tristan\Documents\lemur\index</index>
</parameters>
然而,當我運行:
IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml
我得到神祕的例外:
0:00: Opened repository C:\Users\Tristan\Documents\lemur\index
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Closing index
0:00: Finished
我看了看源代碼中的相關功能,但沒有什麼特別跳出我。有任何想法嗎?
喜,同樣的問題在這裏,但在Mac上。對於unix格式,你的意思是UTF8? – aneuryzm