2015-11-18 29 views
1

我正在使用Galago檢索工具包(Lemur項目的一部分),我需要列出集合中所有詞彙術語(所有特殊術語)。其實我需要一個List <String>Set <String>我真的很感激讓我知道如何獲得這樣的清單?獲取Galago的詞彙列表

回答

1

`DumpKeysFn'類似乎給集合的所有鍵(唯一條款)。該代碼應該是這樣的:

public static Set <String> getAllVocabularyTerms (String fileName) throws IOException{ 
    Set <String> result = new HashSet<>(); 
    IndexPartReader reader = DiskIndex.openIndexPart(fileName); 
    if (reader.getManifest().get("emptyIndexFile", false)) { 
     // do something! 
    } 

    KeyIterator iterator = reader.getIterator(); 
    while (!iterator.isDone()) { 
     result.add(iterator.getKeyString()); 
     iterator.nextKey(); 
    } 
    reader.close(); 
    return result; 
} 
+1

我只想補充一點,使用這個,你可能會通過文件名是「postings.krovetz」如果你想朵朵條款或「貼子」,如果你想unstummed條款。 典型的Java反饋:使用try-with-resources塊而不是顯式關閉調用。 –