tf-idf

    4熱度

    2回答

    據我所知,IDF被用來計算有多少文件有這個詞(只是這個想法)。由於您事先擁有所有文檔,因此可以在訓練集中計算IDF(以及TF)。但是如果我事先沒有測試集並且以順序的方式獲取測試文檔(例如來自網絡爬行器),那麼如何在測試文檔時計算文檔中文字的IDF ?

    2熱度

    1回答

    我有一個查詢和一組文檔。我需要根據與tf-idf的餘弦相似性對這些文檔進行排序。有人可以告訴我,我可以從Lucene得到什麼樣的支持來計算它嗎?我可以直接從Lucene中計算出什麼參數(我可以通過lucene中的某種方法直接獲得tf,idf?)以及如何計算與Lucene的餘弦相似度(如果我傳遞查詢的兩個向量,是否有任何函數直接返回餘弦相似度,文件?) Thanx提前

    3熱度

    2回答

    從我從網上找到的文檔中找出用於確定語料庫中詞語的詞頻和反文檔頻率權重的表達式爲 tf-idf(wt)= tf * log( | N |/d); 我正在通過gensim中提到的tf-idf的實現。 文檔中給出的例子是 >>> doc_bow = [(0, 1), (1, 1)] >>> print tfidf[doc_bow] # step 2 -- use the model to transf

    2熱度

    1回答

    我有一組文件和一個查詢文檔。我的目的是通過與每個文檔的查詢文檔進行比較來返回最相似的文檔。要首先使用餘弦相似性,我必須將文檔字符串映射到vectors.Also我已經創建了一個tf-idf函數計算每個文檔。 爲了得到字符串的索引我有一個這樣的函數; def getvectorKeywordIndex(self, documentList): """ create the keyword

    2熱度

    4回答

    我基本上創建了一個搜索引擎,我想實現tf * idf來根據搜索查詢對我的xml文檔進行排名。我如何實現它?我如何開始它?任何幫助讚賞。

    0熱度

    2回答

    我有一組文檔,這些文檔被分爲Good和Bad類別。我希望能夠預測哪些類別的新文件將屬於哪個類別。我所看到的一件事是找到最佳定義每個類別的術語,並在新文檔中查找這些術語。 有一段時間,當我瞭解TF-IDF時,我在使用Lucene術語向量進行Mahout聚類。在我看來,我所尋找的是類似的東西,我可以從一個類別中找到TermFrequency,然後在另一個類別中應用這些術語的InverseDocumen

    2熱度

    3回答

    我想用一個文件(作爲文本文件)使用mahout做計算,執行TFIDF後面this guide。 我已成功創建字典和矢量權重,現在正在嘗試訪問輸出。在該指南中,它表示「例如可以輕鬆地將生成的詞典文件的內容加載到具有令牌索引作爲鍵和令牌作爲值的映射中。」 我不知道如何去把這個文件加載到地圖上,他建議,有沒有人知道它是如何完成的? 我從一個文本文件目錄創建了我的向量,運行「./mahout seq2sp

    0熱度

    2回答

    我正在開發一個用作用戶分析和Web個性化引擎的Firefox擴展。它需要存儲TF-IDF相關的網頁數據。我的問題是,這將產生更快的簡單搜索結果? a。使用自定義數據結構並將整個數據結構存儲在文件中,將其加載到內存並查詢它? 或 b。存儲和查詢SQLite數據庫的數據? 假設在其中一個表格中存在大約250,000行的最壞情況是安全的。

    3熱度

    2回答

    我的項目正在從平面Excel文件導入一個可觀的集合+ 500K行數據,這些文件是由一組人員手動創建的。現在的問題是,這一切都需要規範化,以便客戶搜索。例如,公司字段將包含多個公司拼寫,幷包含分支,如「IBM」,然後是「IBM Inc.」和「IBM日本」等。此外,我有一些字母數字的產品名稱,如「A46-Rhizonme Pentahol」,其中僅SOUNDEX無法處理。 我可以通過讓所有的數據輸入都

    -1熱度

    2回答

    我有作爲從文檔中提取的字符串存儲的句子。我想爲句子應用標準的餘弦相似度。我如何去做呢?