tf-idf

0熱度

2回答

默認情況下，Lucene（java框架）會根據術語計算文檔的tf-idf和餘弦相似度嗎？

我正在開發一個基於搜索引擎的應用程序，並且正在研究Lucene java框架，我被默認的lucene提供的評分功能弄糊塗了，比如默認的tf-idf和餘弦相似度計分功能是否實現，或者我們必須做別的事嗎？ public class LuceneTester { String indexDir = "C:\\Users\\hamda\\Documents\\NetBeansProjects\\luc

2熱度

1回答

scikit-learn - 我應該使用TF還是TF-IDF模型？

我試圖找出適合Sklearn（Python）的不同概率模型（如潛在Dirichlet分配，非負矩陣分解等）的最佳方法。查看sklearn文檔中的示例，我想知道爲什麼LDA模型適合TF陣列，而NMF模型適合TF-IDF陣列。這種選擇有明確的理由嗎？這裏是例子：http://scikit-learn.org/stable/auto_examples/applications/topics_extr

0熱度

2回答

tf-idf的實現

我正在爲2個字符串進行抄襲檢測，爲此我使用「Levenshtein距離算法」查找抄襲百分比和「tf idf」來查找關鍵字。但是現在我遇到了突出顯示文本類似文本的問題，我正在考慮使用關鍵字作爲種子來形成簇並突出顯示該簇，但似乎很多工作。任何人都可以指導我如何去做，或者任何其他方式。請幫助我完成我的大學項目。

2熱度

1回答

Pyspark - 總和多個稀疏向量（CountVectorizer輸出）

我有一個數據集，其中包含約30k個獨特文檔，因爲它們中包含特定關鍵字，所以被標記。數據集中的一些關鍵字段是文檔標題，文件大小，關鍵字和摘錄（圍繞關鍵字50個字）。這些〜30k獨特文檔中的每一個文檔都有多個關鍵字，每個文檔在每個關鍵字的數據集中都有一行（因此，每個文檔都有多行）。這是在把原始數據的重點領域可能是什麼樣子的樣本： Raw Data Example 我的目標是建立一個模型，對於某些出現次

0熱度

2回答

如何檢索和排列tf idf值相同的文檔？

讓我們假設有2個包含相同術語頻率（TF）的文檔，其逆文檔頻率（IDF）值也相同。例如： - Document1:- tf-idf=0.12 Document2:- tf-idf=0.12 那麼，如何檢索和使用相同的tf-idf值排列這些文件？訪問此鏈接，這取決於你想在你的應用程序要實現什麼更多信息http://www.tfidf.com/

0熱度

1回答

在tf-idf中處理不兼容的矩陣形狀

我試圖匹配兩個不同數據幀df1和df2的公司名稱。我試圖在兩列上實現tf-idf和餘弦相似性 - df1中的company1和df2中的company2。 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity v = T

0熱度

1回答

如何正確使用scikit-learn進行文本聚類

對於kmeans聚類，我使用TfidfVectorizer時總是出錯。有3種情況：我用分詞器參數TfidfVectorizer定製標記化進程對我的數據集。這裏是我的代碼： ` vectorizer = TfidfVectorizer(stop_words=stops,tokenizer=tokenize) X = vectorizer.fit_transform(titles) ` 但是

3熱度

1回答

pyspark：稀疏向量到scipy稀疏矩陣

我有一列短句子和一個分類變量列的spark數據框。我想對分類變量上的句子one-hot-encoding執行tf-idf，然後將其輸出到驅動程序中的稀疏矩陣（一旦它的尺寸更小）（對於scikit-learn模型）。什麼是以稀疏形式從火花中獲取數據的最佳方式？似乎在稀疏向量上只有一個toArray()方法，它輸出numpy數組。但是，文檔確實說scipy稀疏數組can be used in the

1熱度

1回答

餘弦相似度使用Apache火花

我試圖計算的TFIDF餘弦相似矩陣，使用Apache的火花。這裏是我的代碼： def cosSim(input: RDD[Seq[String]]) = { val hashingTF = new HashingTF() val tf = hashingTF.transform(input) tf.cache() val idf = new IDF().f

0熱度

1回答

TfidfVectorizer和SelectPercentile返回什麼？

我正在使用scikit-learn進行問題分類。我有這樣的代碼： print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)