tf-idf

    0熱度

    1回答

    我是IR新手,我想計算網頁的tf-idf。 對於「tf」部分,我想計算一個網頁內容中每個單詞的頻率。 對於「idf」部分,我想比較多個網頁的內容。 是否有工具/ API可以幫助解決這個問題?任何平臺都可以。有人可以解釋我該如何實現這一目標? 謝謝大家。

    0熱度

    1回答

    我想使這樣的軟件,使2文本文件智能有點像檢查多少文本匹配,不喜歡DIFF 我搜索了一個相當谷歌,我發現2件事是圖& TFIDF。 但我兩者之間的困惑,我不知道哪一個更好&也沒有任何其他技術相匹配的文本文檔

    0熱度

    2回答

    tldr:tfidf稀疏矩陣是什麼樣的? 假設我有以下幾點。 descriptions = ["he liked dogs", "she liked cats", "she hated cars"] tfidf = TfidfVectorizer() trained_model = tfidf.fit_transform(descriptions) 現在我想結合tfidf分數與文檔的其他功

    0熱度

    1回答

    我有一個csv與每一行作爲文件。我需要對此執行LDA。我有以下代碼: library(tm) library(SnowballC) library(topicmodels) library(RWeka) X = read.csv('doc.csv',sep=",",quote="\"",stringsAsFactors=FALSE) corpus <- Corpus(VectorSo

    0熱度

    2回答

    我目前正在NLP/IR中執行一個java項目,並且對此很新。 該項目由一個包含大約1000個文檔的集合組成,其中每個文檔包含大約100個單詞,其結構爲包含具有術語頻率的單詞。我想根據文檔(來自集合)找到類似的文檔。 使用TF-IDF,爲查詢(給定文檔)和集合中的每個其他文檔計算tf-idf,然後將這些值作爲具有餘弦相似度的矢量進行比較。這可以讓他們的相似性有所洞察嗎?或者因爲大的查詢(文檔)而不合

    0熱度

    1回答

    我有一些代碼在文檔集合上運行基本的TF-IDF矢量化工具,返回DXF的稀疏矩陣,其中D是文檔數,F是數字的條款。沒問題。 但是,如何找到文檔中特定術語的TF-IDF分數?即在術語之間(在其文本表示中)和它們在所產生的稀疏矩陣中的位置之間是否存在某種詞典?

    11熱度

    1回答

    我在想,是否有可能在整個索引或別名中得到Elasticsearch字段中前十個最常用的單詞。 這裏是我想要做的事:從各種文檔類型(的Word,PowerPoint,PDF等)提取 我索引的文本文件,這些進行了分析,並存儲在一個名爲doc_content場。我想知道是否有一種方法可以找到存儲在doc_content字段中的特定索引中最常用的單詞。 爲了讓它更清晰,讓我們假設我是索引Amazon和eB

    0熱度

    2回答

    我有一個正文,500個句子。句子顯然被剝奪了,爲了簡單起見,我們假設一段時間。每個句子大約有10-20個單詞。 我想把它分解成統計最常用在同一句子中的單詞組。這是一個簡單的例子。 This is a sentence about pink killer cats chasing madonna. Sometimes when whales fight bricklayers, everyone

    0熱度

    1回答

    我希望能夠以一種方式幫助我從.txt文件中讀取內容(將它們視爲單個文檔)和確定每條推文的tf-idf。 # -*- coding: utf-8 -*- from __future__ import division, unicode_literals import math from textblob import TextBlob as tb def tf(word, blob):

    0熱度

    1回答

    我已經將TF-IDF實現爲一個簡單的程序,但是想要計算每行的TF-IDF而不是整個文件。 我已經使用from sklearn.feature_extraction.text import TfidfVectorizer看着下面的鏈接作爲一個例子tf-idf feature weights using sklearn.feature_extraction.text.TfidfVectorizer 這