tf-idf

    3熱度

    1回答

    逆文檔頻率在信息檢索中無用的情況是什麼?

    1熱度

    1回答

    我正在構建一個系統,我只想顯示過去幾天索引的結果。 此外,如果我只想返回幾天(數千個文檔)的結果,我不想維護一個包含一百萬個文檔的巨型索引。另一方面,我的系統嚴重依賴索引中存儲的文檔中出現的條目具有現實的分佈(因此:實際的IDF)。這就是說,我想使用一個小的索引來返回結果,但我想從一個更大的索引(甚至外部源)使用IDF計算文檔分數。 Similarity API似乎不允許我這樣做。 idf方法沒有

    2熱度

    1回答

    Lucene具有很強的增量索引功能。從頭開始開發IR系統通常是一件痛苦的事情。 我想知道如果我可以使用低級別的Lucene APIs僅將它用作倒排索引,即用於倒排列表,位置信息,詞頻,idfs,現場存儲等的存儲... 底線是我想實現我自己的權重和文件評分。我知道Similarity班,但它沒有給我想要的靈活性。

    3熱度

    1回答

    我需要建立矩陣,但是我找不到一種方法來計算每個單元的標準化tf-idf。 我會執行的規範化是餘弦歸一化,即每1/sqrt(列中的sumOfSquaredtf-idf)除tf-idf(使用DefaultSimilarity計算)。 有沒有人知道一種方式來執行該操作?預先 由於 安東尼奧

    0熱度

    2回答

    // Calculating term frequency System.out.println("Please enter the required word :"); Scanner scan = new Scanner(System.in); String word = scan.nextLine(); String[] array = word.s

    1熱度

    1回答

    我正在開發一些軟件,旨在通過執行TF-IDF(與一般英語語料庫相比刪除常見單詞進行比較)來唯一標識網頁。花了一段時間找到一個好的免費語料庫(http://www.wordfrequency.info/top5000.asp),但是,這個語料庫只提供頻率和分散度。它沒有說明語料庫中包含了多少文檔,所以我無法編制IDF表格。它包含一個分散值,範圍從0到1,其中1表示在每個文檔中出現一個詞。 有沒有人知

    1熱度

    2回答

    我使用LETOR來製作信息檢索系統。他們使用TF和IDF。 我相信TF是查詢相關的。但是IDF應該是,但是: 「請注意,IDF是獨立於文檔的,因此查詢下的所有文檔都具有相同的IDF值 。」 但這沒有意義,因爲IDF是功能列表的一部分。每個文檔的IDF將如何計算?

    6熱度

    2回答

    除了在文本內容字段上使用tf-idf相似度的標準字詞搜索外,我還希望基於數字字段的「相似性」進行評分。這種相似性將取決於查詢中和文檔中的值之間的距離(例如,具有m = [用戶輸入],s = 0.5的高斯) 即,假設文件代表的人,和個人文檔具有兩個字段: 說明(全文) 年齡(數字)。 我想找到的文件像 說明:(XYZ)年齡:30 但年齡是沒有在過濾器,而是得分的一部分(30歲乘數的人將爲1.0,爲2

    0熱度

    1回答

    我有一個問題來計算相似性度量來爲我的最終項目開發一個搜索引擎。我不得不使用tf idf + cosine在java中的相似性,我不知道如何計算它。 爲了您的信息,我有自己的數據庫,其中有811文件

    1熱度

    2回答

    我計算TFIdf(術語頻率,逆文檔頻率),我已經看到在這一步之後,有必要使用像LSI,chi-square檢驗等方法來減少My Matrix的維數。 我還沒有任何想法如何我可以在java中實現卡方檢驗矩陣TFIDF的維度減少,如果有一些庫來做到這一點或教程,他們解釋了我可以做到這一點,告訴我請