tf-idf

    0熱度

    2回答

    我正在開發一個基於搜索引擎的應用程序,並且正在研究Lucene java框架,我被默認的lucene提供的評分功能弄糊塗了,比如默認的tf-idf和餘弦相似度計分功能是否實現,或者我們必須做別的事嗎? public class LuceneTester { String indexDir = "C:\\Users\\hamda\\Documents\\NetBeansProjects\\luc

    2熱度

    1回答

    我試圖找出適合Sklearn(Python)的不同概率模型(如潛在Dirichlet分配,非負矩陣分解等)的最佳方法。 查看sklearn文檔中的示例,我想知道爲什麼LDA模型適合TF陣列,而NMF模型適合TF-IDF陣列。這種選擇有明確的理由嗎? 這裏是例子:http://scikit-learn.org/stable/auto_examples/applications/topics_extr

    0熱度

    2回答

    我正在爲2個字符串進行抄襲檢測,爲此我使用「Levenshtein距離算法」查找抄襲百分比和「tf idf」來查找關鍵字。但是現在我遇到了突出顯示文本類似文本的問題,我正在考慮使用關鍵字作爲種子來形成簇並突出顯示該簇,但似乎很多工作。任何人都可以指導我如何去做,或者任何其他方式。請幫助我完成我的大學項目。

    2熱度

    1回答

    我有一個數據集,其中包含約30k個獨特文檔,因爲它們中包含特定關鍵字,所以被標記。數據集中的一些關鍵字段是文檔標題,文件大小,關鍵字和摘錄(圍繞關鍵字50個字)。這些〜30k獨特文檔中的每一個文檔都有多個關鍵字,每個文檔在每個關鍵字的數據集中都有一行(因此,每個文檔都有多行)。這是在把原始數據的重點領域可能是什麼樣子的樣本: Raw Data Example 我的目標是建立一個模型,對於某些出現次

    0熱度

    2回答

    讓我們假設有2個包含相同術語頻率(TF)的文檔,其逆文檔頻率(IDF)值也相同。 例如: - Document1:- tf-idf=0.12 Document2:- tf-idf=0.12 那麼,如何檢索和使用相同的tf-idf值排列這些文件? 訪問此鏈接,這取決於你想在你的應用程序要實現什麼更多信息http://www.tfidf.com/

    0熱度

    1回答

    我試圖匹配兩個不同數據幀df1和df2的公司名稱。我試圖在兩列上實現tf-idf和餘弦相似性 - df1中的company1和df2中的company2。 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity v = T

    0熱度

    1回答

    對於kmeans聚類,我使用TfidfVectorizer時總是出錯。 有3種情況: 我用分詞器參數TfidfVectorizer定製標記化進程對我的數據集。這裏是我的代碼: ` vectorizer = TfidfVectorizer(stop_words=stops,tokenizer=tokenize) X = vectorizer.fit_transform(titles) ` 但是

    3熱度

    1回答

    我有一列短句子和一個分類變量列的spark數據框。我想對分類變量上的句子one-hot-encoding執行tf-idf,然後將其輸出到驅動程序中的稀疏矩陣(一旦它的尺寸更小)(對於scikit-learn模型)。 什麼是以稀疏形式從火花中獲取數據的最佳方式?似乎在稀疏向量上只有一個toArray()方法,它輸出numpy數組。但是,文檔確實說scipy稀疏數組can be used in the

    1熱度

    1回答

    我試圖計算的TFIDF餘弦相似矩陣,使用Apache的火花。 這裏是我的代碼: def cosSim(input: RDD[Seq[String]]) = { val hashingTF = new HashingTF() val tf = hashingTF.transform(input) tf.cache() val idf = new IDF().f

    0熱度

    1回答

    我正在使用scikit-learn進行問題分類。我有這樣的代碼: print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)