Lucene索引的內存中表示(與文件格式相反)是什麼樣的?整個反向索引是否加載到內存中作爲發佈列表數組(每個發佈列表包含文檔ID,文檔中的術語頻率和職位)?像Lucene的索引內存中的索引是什麼樣的?
class Posting {
private int docID;
private int termFreq;
private int[] termPositions;
}
class PostingList {
private Posting[] postings;
}
public class SomeClassThatHoldsTheIndexInMemory {
private PostingList[] index; // Indexed by some internal term ID?
}
東西我明白一切,構成了指標(包括有關條款輔助信息)可能不會在內存中保存,但肯定的東西是什麼?
哪些類定義索引的內存中表示形式?如果索引看起來像上面那樣,Lucene如何從一個術語(一個字符串)轉到一個術語ID(一個int)?