tm

    2熱度

    1回答

    我在R中使用來自CRAN的TM包。我在創建基於語料庫的DocumentTermMatrix時遇到問題。問題是,當我創建基於UTF-8語料庫的TermDocumentMatrix時,有些詞會變成​​unicode符號。 corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))

    1熱度

    3回答

    我使用包tm。我有一個完整的html文檔的語料庫,我想刪除除html標籤以外的所有內容。我一直試圖這樣做幾天,但我似乎無法找到任何好的解決方案。 例如,假設我有一個這樣的文件: <html> <body> <h1>hello</h1> </body> </html> 我會希望文檔變成了這個樣子: <html> <body> <h1> (或與結束標記,我不) 我的目標是計算每個標

    1熱度

    1回答

    TM封裝我想讀的CSV文件的內容爲dataframesource但是當我嘗試創建一個語料庫它總是說 **argument "x" is missing, with no default** 的代碼是 corpus1 <- Corpus(object=ds, readerControl=list(reader=readTabular(mapping=m),language="en"))

    -5熱度

    1回答

    我有一個30k記錄(公司名稱和其他屬性)的data.frame。 dba_nm是60個字符的最長元素<的公司名稱字段。 R對話的內存使用從100MB上升到3GB和掛起當我嘗試在?tm::VectorSource代碼: ds <- VectorSource(dat$dba_nm) inspect(Corpus(ds))

    4熱度

    2回答

    當使用下載的R程序包,如「以舊換新」時,給出的例子通常加載示例數據集中,如 data("crude") 我怎樣才能確切地知道這組數據是什麼,以及哪種格式,矩陣或矢量?只有知道這種信息,我才能將我的輸入定製爲此包所需的格式。

    7熱度

    1回答

    的矩陣我使用tm包河 我試圖創建一個矩陣/數據框有50周最頻繁出現的詞條創建的termDocumentMatrix。 當我嘗試轉換爲矩陣我得到這個錯誤: > ap.m <- as.matrix(mydata.dtm) Error: cannot allocate vector of size 2.0 Gb 所以我試圖用矩陣包轉換爲稀疏矩陣: > A <- as(mydata.dtm, "sp

    1熱度

    2回答

    所以我的問題是,我已經提取了很多論壇帖子到單獨的txt文件,現在在我的硬盤上。每個文件都包含我想要提取的信息,其中一些我已經計算出如何提取。我需要提取的信息是以下形式: 在相同的「HTML塊」 1:(X)在該線程消息 2:消息是答覆(一些HTML代碼) A HREF =「鏈接」(一些HTML代碼= 在任務1是簡單地需要提取X 在任務2 I需要提取該消息是答覆 我已經看過的鏈接到不同的tm和XML包

    1熱度

    3回答

    dtm <- DocumentTermMatrix(reuters, control=list(wordLengths=c(1,Inf))) 我想轉成DTM期限長期矩陣的,有什麼下面是不正確的: dtm <- dtm %*% t(dtm) 怎麼可能做到呢?

    5熱度

    1回答

    我在R 2.15.1中使用了tm和wordcloud軟件包。 我正在嘗試從DTM創建一個詞語云。下面是代碼: library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.cloud(trymatrix, max.words

    11熱度

    4回答

    我想在R中做一些堵塞,但它似乎只能在單個文檔上工作。我的最終目標是顯示文檔中每個術語的頻率的術語文檔矩陣。 下面是一個例子: require(RWeka) require(tm) require(Snowball) worder1<- c("I am taking","these are the samples", "He speaks differently","This is dis