tf-idf

4熱度

2回答

據我所知，IDF被用來計算有多少文件有這個詞（只是這個想法）。由於您事先擁有所有文檔，因此可以在訓練集中計算IDF（以及TF）。但是如果我事先沒有測試集並且以順序的方式獲取測試文檔（例如來自網絡爬行器），那麼如何在測試文檔時計算文檔中文字的IDF ？

2熱度

1回答

如何使用Lucene和Java計算與tf-idf的餘弦相似度

我有一個查詢和一組文檔。我需要根據與tf-idf的餘弦相似性對這些文檔進行排序。有人可以告訴我，我可以從Lucene得到什麼樣的支持來計算它嗎？我可以直接從Lucene中計算出什麼參數（我可以通過lucene中的某種方法直接獲得tf，idf？）以及如何計算與Lucene的餘弦相似度（如果我傳遞查詢的兩個向量，是否有任何函數直接返回餘弦相似度，文件？） Thanx提前

3熱度

2回答

如何在python中的gensim工具中實現TF-IDF？

從我從網上找到的文檔中找出用於確定語料庫中詞語的詞頻和反文檔頻率權重的表達式爲 tf-idf（wt）= tf * log（ | N |/d）; 我正在通過gensim中提到的tf-idf的實現。文檔中給出的例子是 >>> doc_bow = [(0, 1), (1, 1)] >>> print tfidf[doc_bow] # step 2 -- use the model to transf

2熱度

1回答

通過在python中使用餘弦相似度返回最相似的文檔與查詢文檔相比較

我有一組文件和一個查詢文檔。我的目的是通過與每個文檔的查詢文檔進行比較來返回最相似的文檔。要首先使用餘弦相似性，我必須將文檔字符串映射到vectors.Also我已經創建了一個tf-idf函數計算每個文檔。爲了得到字符串的索引我有一個這樣的函數; def getvectorKeywordIndex(self, documentList): """ create the keyword

2熱度

4回答

java -tf * idf的實現？

我基本上創建了一個搜索引擎，我想實現tf * idf來根據搜索查詢對我的xml文檔進行排名。我如何實現它？我如何開始它？任何幫助讚賞。

0熱度

2回答

使用Lucene/Mahout在預定義的文檔組中查找定義的術語

我有一組文檔，這些文檔被分爲Good和Bad類別。我希望能夠預測哪些類別的新文件將屬於哪個類別。我所看到的一件事是找到最佳定義每個類別的術語，並在新文檔中查找這些術語。有一段時間，當我瞭解TF-IDF時，我在使用Lucene術語向量進行Mahout聚類。在我看來，我所尋找的是類似的東西，我可以從一個類別中找到TermFrequency，然後在另一個類別中應用這些術語的InverseDocumen

2熱度

3回答

Mahout TFIDF字典文件

我想用一個文件（作爲文本文件）使用mahout做計算，執行TFIDF後面this guide。我已成功創建字典和矢量權重，現在正在嘗試訪問輸出。在該指南中，它表示「例如可以輕鬆地將生成的詞典文件的內容加載到具有令牌索引作爲鍵和令牌作爲值的映射中。」我不知道如何去把這個文件加載到地圖上，他建議，有沒有人知道它是如何完成的？我從一個文本文件目錄創建了我的向量，運行「./mahout seq2sp

0熱度

2回答

哪個更省時？文件存儲或SQLite

我正在開發一個用作用戶分析和Web個性化引擎的Firefox擴展。它需要存儲TF-IDF相關的網頁數據。我的問題是，這將產生更快的簡單搜索結果？ a。使用自定義數據結構並將整個數據結構存儲在文件中，將其加載到內存並查詢它？或 b。存儲和查詢SQLite數據庫的數據？假設在其中一個表格中存在大約250,000行的最壞情況是安全的。

3熱度

2回答

如何在MySQL中標記字符串？

我的項目正在從平面Excel文件導入一個可觀的集合+ 500K行數據，這些文件是由一組人員手動創建的。現在的問題是，這一切都需要規範化，以便客戶搜索。例如，公司字段將包含多個公司拼寫，幷包含分支，如「IBM」，然後是「IBM Inc.」和「IBM日本」等。此外，我有一些字母數字的產品名稱，如「A46-Rhizonme Pentahol」，其中僅SOUNDEX無法處理。我可以通過讓所有的數據輸入都

-1熱度

2回答

句子的轉換概率矩陣計算

我有作爲從文檔中提取的字符串存儲的句子。我想爲句子應用標準的餘弦相似度。我如何去做呢？