2010-02-20 13 views
0

我已經經歷有點狐猴索引教程這裏:狐猴試圖索引文件時獲取畸形的文檔錯誤

http://www.lemurproject.org/tutorials/begin_indexing-1.php

我創建了一個「文集」的文件夾,包含一個文件用看似正確格式的文件:

<DOC> 
<DOCNO>1</DOCNO> 
<TEXT> 
    Here is some text 
</TEXT> 
</DOC> 

並創建了以下配置文件:

<parameters> 
    <corpus> 
    <path>C:\Users\Tristan\Documents\lemur\corpus</path> 
    <class>trectext</class> 
    </corpus> 
    <memory>256m</memory> 
    <index>C:\Users\Tristan\Documents\lemur\index</index> 
</parameters> 

然而,當我運行:

IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml 

我得到神祕的例外:

0:00: Opened repository C:\Users\Tristan\Documents\lemur\index 
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1 
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI 
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1 
0:00: Closing index 
0:00: Finished 

我看了看源代碼中的相關功能,但沒有什麼特別跳出我。有任何想法嗎?

回答

0

我結束了在保存UNIX格式我的文檔文件和它的工作。但請注意,出於某種原因手動修復行結束符不起作用,所以還有其他窗口添加到文件中,而不是狐猴不喜歡的。

+0

喜,同樣的問題在這裏,但在Mac上。對於unix格式,你的意思是UTF8? – aneuryzm