term-document-matrix

    2熱度

    1回答

    我剛剛在R中開始使用tm包,似乎無法解決問題。 雖然我的分詞器的功能似乎工作權: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    0熱度

    1回答

    我使用CountVectorizer從sklearn做文字符號化(2克),並創建一個術語文檔矩陣如何來標記文本。我如何將文字標記爲2克並以標點符號作爲邊界?例如,輸入句子是「這是例子,標點符號」。 我想令牌爲「這是」,「是示例」,「帶有標點符號」。 我不希望「示例與」,它橫跨逗號。 下面是我當前的代碼: from sklearn.feature_extraction.text import Cou

    0熱度

    1回答

    也許我誤解了tm::DocumentTermMatrix的工作原理。我有一個語料庫其預處理後看起來是這樣的: head(Description.text, 3) [1] "azi sanitar local to1 presid osp martin presid ospedalier martin tofan torin tel possibil raggiung ospedal segu b

    0熱度

    1回答

    所以我知道有幾種方法可以找到文檔語料庫中最相似或最相似的三個文檔。我知道可能會出現擴展問題,現在我有大約一萬個文檔,並且已經在大約三十個子集上運行測試。這是我現在得到的,但正在考慮研究elasticsearch或doc2vec,如果這證明是不可能的或低效的。 到目前爲止,腳本工作得非常好,他們使用spaCy標記文本和Sklearn TfidfVectorizer以適應所有文檔,並找到非常相似的文檔

    1熱度

    1回答

    你好。 是否有任何方式通過使用多核,並行處理來創建termdocumentmatrix?或者爲了獲得更快的結果,我可以使用一些軟件包,比如parallel,h2o或其他軟件包嗎? 有人幫我。 謝謝。

    0熱度

    1回答

    我想查看文檔中的術語頻率,我的文檔包含波斯語文本。我使用R如下: keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts")) tm.matrix <- TermDocumentMatrix(keycorpus) View(as.matrix(tm.matrix)) 雖然這段代碼對於英文文本是可以的,但不幸的是它不適用于波斯語文本。我怎

    1熱度

    1回答

    我是Python新手, 我使用R創建了一個術語文檔矩陣,我想了解如何使用Python創建它。 我正在讀取數據框Res_Desc_Train中可用的Description列中的文本數據。但不知道如何使用在python中創建文檔術語矩陣的功能,如果有任何有助於學習的文檔,這將會很有幫助。 下面是代碼,我在R. docs <- Corpus(VectorSource(Res_Desc_Train$Des

    3熱度

    1回答

    我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    0熱度

    2回答

    我只有一列的數據幀「文本」 "text" "User Interfaces" "Twitter" "Text Normalization" "Term weighting" "Teenagers" "Team member replacement" 我想借一個數據幀與每一個短語的頻率,像這樣: "User Interfaces",1 "Twitter",1 "Text Norm

    0熱度

    1回答

    我使用創建的雙字母組的列表: BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = BigramTokenizer)) 我試圖