tm - 優文庫

tm

2熱度

1回答

我在R中使用來自CRAN的TM包。我在創建基於語料庫的DocumentTermMatrix時遇到問題。問題是，當我創建基於UTF-8語料庫的TermDocumentMatrix時，有些詞會變成unicode符號。 corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))

1熱度

3回答

刪除一切，但從一個語料庫的HTML標籤

我使用包tm。我有一個完整的html文檔的語料庫，我想刪除除html標籤以外的所有內容。我一直試圖這樣做幾天，但我似乎無法找到任何好的解決方案。例如，假設我有一個這樣的文件： <html> <body> <h1>hello</h1> </body> </html> 我會希望文檔變成了這個樣子： <html> <body> <h1> （或與結束標記，我不）我的目標是計算每個標

1熱度

1回答

讀CSV文件導入語料庫 - R中

TM封裝我想讀的CSV文件的內容爲dataframesource但是當我嘗試創建一個語料庫它總是說 **argument "x" is missing, with no default** 的代碼是 corpus1 <- Corpus(object=ds, readerControl=list(reader=readTabular(mapping=m),language="en"))

-5熱度

1回答

R包中R掛着小數據集

我有一個30k記錄（公司名稱和其他屬性）的data.frame。 dba_nm是60個字符的最長元素<的公司名稱字段。 R對話的內存使用從100MB上升到3GB和掛起當我嘗試在?tm::VectorSource代碼： ds <- VectorSource(dat$dba_nm) inspect(Corpus(ds))

4熱度

2回答

有關數據（）中的R功能

當使用下載的R程序包，如「以舊換新」時，給出的例子通常加載示例數據集中，如 data("crude") 我怎樣才能確切地知道這組數據是什麼，以及哪種格式，矩陣或矢量？只有知道這種信息，我才能將我的輸入定製爲此包所需的格式。

7熱度

1回答

[R TM封裝創建NMOST常用術語

的矩陣我使用tm包河我試圖創建一個矩陣/數據框有50周最頻繁出現的詞條創建的termDocumentMatrix。當我嘗試轉換爲矩陣我得到這個錯誤： > ap.m <- as.matrix(mydata.dtm) Error: cannot allocate vector of size 2.0 Gb 所以我試圖用矩陣包轉換爲稀疏矩陣： > A <- as(mydata.dtm, "sp

1熱度

2回答

如何從HTML文件中提取特定內容爲TXT格式？

所以我的問題是，我已經提取了很多論壇帖子到單獨的txt文件，現在在我的硬盤上。每個文件都包含我想要提取的信息，其中一些我已經計算出如何提取。我需要提取的信息是以下形式：在相同的「HTML塊」 1：（X）在該線程消息 2：消息是答覆（一些HTML代碼） A HREF =「鏈接」（一些HTML代碼= 在任務1是簡單地需要提取X 在任務2 I需要提取該消息是答覆我已經看過的鏈接到不同的tm和XML包

1熱度

3回答

如何將doc-term矩陣轉換爲term-term矩陣？

dtm <- DocumentTermMatrix(reuters, control=list(wordLengths=c(1,Inf))) 我想轉成DTM期限長期矩陣的，有什麼下面是不正確的： dtm <- dtm %*% t(dtm) 怎麼可能做到呢？

5熱度

1回答

wordcloud軟件包：獲取「strwidth（...）中的錯誤：無效'cex'值」

我在R 2.15.1中使用了tm和wordcloud軟件包。我正在嘗試從DTM創建一個詞語云。下面是代碼： library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.cloud(trymatrix, max.words

11熱度

4回答

R堵塞字符串/文檔/語料庫

我想在R中做一些堵塞，但它似乎只能在單個文檔上工作。我的最終目標是顯示文檔中每個術語的頻率的術語文檔矩陣。下面是一個例子： require(RWeka) require(tm) require(Snowball) worder1<- c("I am taking","these are the samples", "He speaks differently","This is dis