term-document-matrix

2熱度

1回答

我剛剛在R中開始使用tm包，似乎無法解決問題。雖然我的分詞器的功能似乎工作權： uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

0熱度

1回答

使用標點符號作爲邊界（Python）的

我使用CountVectorizer從sklearn做文字符號化（2克），並創建一個術語文檔矩陣如何來標記文本。我如何將文字標記爲2克並以標點符號作爲邊界？例如，輸入句子是「這是例子，標點符號」。我想令牌爲「這是」，「是示例」，「帶有標點符號」。我不希望「示例與」，它橫跨逗號。下面是我當前的代碼： from sklearn.feature_extraction.text import Cou

0熱度

1回答

TM DocumentTermMatrix給出了令人意想不到的結果給出了語料庫

也許我誤解了tm::DocumentTermMatrix的工作原理。我有一個語料庫其預處理後看起來是這樣的： head(Description.text, 3) [1] "azi sanitar local to1 presid osp martin presid ospedalier martin tofan torin tel possibil raggiung ospedal segu b

0熱度

1回答

爲術語文檔矩陣添加一個新文檔以進行相似度計算

所以我知道有幾種方法可以找到文檔語料庫中最相似或最相似的三個文檔。我知道可能會出現擴展問題，現在我有大約一萬個文檔，並且已經在大約三十個子集上運行測試。這是我現在得到的，但正在考慮研究elasticsearch或doc2vec，如果這證明是不可能的或低效的。到目前爲止，腳本工作得非常好，他們使用spaCy標記文本和Sklearn TfidfVectorizer以適應所有文檔，並找到非常相似的文檔

1熱度

1回答

R，有沒有什麼方法可以通過使用多個內核來創建termdocumentmatrix？

你好。是否有任何方式通過使用多核，並行處理來創建termdocumentmatrix？或者爲了獲得更快的結果，我可以使用一些軟件包，比如parallel，h2o或其他軟件包嗎？有人幫我。謝謝。

0熱度

1回答

如何在R中使用TermDocumentMatrix來處理波斯語文本？

我想查看文檔中的術語頻率，我的文檔包含波斯語文本。我使用R如下： keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts")) tm.matrix <- TermDocumentMatrix(keycorpus) View(as.matrix(tm.matrix)) 雖然這段代碼對於英文文本是可以的，但不幸的是它不適用于波斯語文本。我怎

1熱度

1回答

使用Python創建語料庫

我是Python新手，我使用R創建了一個術語文檔矩陣，我想了解如何使用Python創建它。我正在讀取數據框Res_Desc_Train中可用的Description列中的文本數據。但不知道如何使用在python中創建文檔術語矩陣的功能，如果有任何有助於學習的文檔，這將會很有幫助。下面是代碼，我在R. docs <- Corpus(VectorSource(Res_Desc_Train$Des

3熱度

1回答

在R中使用DocumentTermMatrix和'dictionary'參數

我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣： library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

0熱度

2回答

把所有的文字用語的數據頻率

我只有一列的數據幀「文本」 "text" "User Interfaces" "Twitter" "Text Normalization" "Term weighting" "Teenagers" "Team member replacement" 我想借一個數據幀與每一個短語的頻率，像這樣： "User Interfaces",1 "Twitter",1 "Text Norm

0熱度

1回答

[R文本挖掘轉換期限文檔矩陣

我使用創建的雙字母組的列表： BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = BigramTokenizer)) 我試圖