2013-02-21 48 views
1

我索引了10個網站的索引數據。現在我想用下面的格式來轉儲每個網站的數據:[術語,術語的頻率在該網站,IDF,網站]如何檢索所有與他們的網站頻率

e.g : [management,12,145,example.com] 
where 12 is a frequency of term in example.com, 145 is IDF of term in index. 

我能做到這一點使用Solr和如何?

+0

非常感謝大家的回覆:我已經使用方面查詢完成了該操作。其中q = *:*和fq = host:myhost.com,facet = true,facet.field = content,facet.limit = 5000000 – user1834873 2013-03-01 07:16:28

回答

1

如果您希望測量文檔中不同術語的分佈情況,那麼直方圖就是您想要的。檢查LukeRequestHandler的例子。

0

一些低級別的API:

InderReader reader = IndexReader.open(directory); 
TermDocs termDocs = reader.termDocs(); 
// TermDocs termDocs = reader.termDocs(term); // if you need docs containing specific term 
while (termDocs.next()) { 
    System.out.println("DoC#: " + termDocs.doc()); 
    System.out.println("Full document: " + reader.document(termDocs.doc())); 
    System.out.println("Term frequency: " + termDocs.freq());   
} 

的TF * IDF看DefaultSimilaritythis question了一些意見。

相關問題