3
我需要建立矩陣,但是我找不到一種方法來計算每個單元的標準化tf-idf。 我會執行的規範化是餘弦歸一化,即每1/sqrt(列中的sumOfSquaredtf-idf)除tf-idf(使用DefaultSimilarity計算)。Lucene。如何建立一個term-doc矩陣
有沒有人知道一種方式來執行該操作?預先
由於
安東尼奧
我需要建立矩陣,但是我找不到一種方法來計算每個單元的標準化tf-idf。 我會執行的規範化是餘弦歸一化,即每1/sqrt(列中的sumOfSquaredtf-idf)除tf-idf(使用DefaultSimilarity計算)。Lucene。如何建立一個term-doc矩陣
有沒有人知道一種方式來執行該操作?預先
由於
安東尼奧
一種方法,不使用Lucene,在Sujit Pal's blog進行說明。或者,您可以構建一個Lucene索引,該索引具有每個字段的術語向量,對術語進行迭代以獲得idf,然後迭代術語文檔以獲得tf。