2013-01-10 96 views
0

我已經創建了一個基於LingPipe DictionaryChunker示例的測試程序。我正在從文件中將字典值讀入MapDictionary。當文件超過100000項解析器startes返回垃圾:LingPipe詞典大小

爲10K行(尾-10000 nameList.txt> shortNameList.txt)

TEXT =現在是時候讓所有的好男人前來他們的國家佐伊羅傑斯現在是所有好男人來幫助他們的國家的時間

Chunker。全部匹配= false大小寫敏感=假 phrase = | Zoe Rogers |開始= 69端= 79類型= PLAYER得分= 1.0

爲100k的行(尾-100000 nameList.txt> shortNameList.txt)

TEXT =現在是時候對所有好人來輔助他們的國家佐伊羅傑斯現在是所有好男人來幫助他們的國家的時間

Chunker。所有匹配= false大小寫敏感=假 phrase = |現在是所有好男人的時間| start = 0 end = 32 type = PLAYER score = 1.0 phrase = |來幫助他們的國家| start = 33 end = 68 type = PLAYER score = 1.0 phrase = | Zoe Rogers現在是所有人的時間| start = 69 end = 103 type = PLAYER score = 1.0 詞條= |好男人來幫助| start = 104 end = 134 type = PLAYER score = 1.0

是否有創建MapDictionary的更好選擇?

我調整了虛擬機上的內存限制,這似乎沒有幫助。

有什麼想法?

回答

0

證明允許MapDictionary中的任何值爲null會破壞chunker。刪除任何空白值的行後,chunker工作正常。