tm - 優文庫

tm

0熱度

1回答

我正在用R中的tm-package創建文檔項矩陣，但是我的語料庫中的某些單詞在某個過程中會丟失。我會用一個例子來解釋。然而 dm <- DocumentTermMatrix(crps) dm_matrix <- as.matrix(dm) dm_matrix # Terms # Docs and bout class home hours more next night # 1 1 1

0熱度

1回答

多邊並行嵌套在循環中的循環工作，但邏輯上沒有意義？

我有一個很大的語料庫，我正在與tm::tm_map()進行轉換。由於我使用託管的R Studio，因此我有15個內核，並希望利用並行處理來加快速度。沒有共享一個非常大的語料庫，我簡直無法用虛擬數據重現。我的代碼如下。對問題的簡短描述是在控制檯中手動循環切片，但在我的函數內部不這樣做。函數「clean_corpus」將語料庫作爲輸入，將其分解成片段並保存到臨時文件以幫助解決內存問題。然後該函數

2熱度

1回答

R中的TermDocumentMatrix - 僅創建1剋剋

我剛剛在R中開始使用tm包，似乎無法解決問題。雖然我的分詞器的功能似乎工作權： uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

-1熱度

1回答

R，「tm」包 - 錯誤：語料庫函數未找到

我是一名新手R/tm用戶，我有一個愚蠢但令人討厭的問題。後通過這條線下載884 KB TM封裝[install.packages（「TM」），制定自己的工作目錄，打開我的文件，我試圖用這個功能：語料庫< -Corpus （VectorSource（mycorpus $ title））作爲迴應，R軟件寫道：「未找到語料庫功能」。我需要安裝更多的軟件包還是我做錯了什麼？在問你之前，我已經在這

0熱度

1回答

使用text2vec包進行文本預處理和主題建模

我有大量文檔，並且想使用text2vec和LDA（Gibbs Sampling）進行主題建模。步驟我需要的是爲（按順序）：從文本中刪除數字和符號 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

1熱度

4回答

使用哈希字典的詞典化函數不適用於R中的tm包

我想使用大型外部詞典（類似於下面的txt變量的格式）來解讀波蘭文本。我不幸運，有一個選擇波蘭文與流行的文本挖掘軟件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717與簡單的文本向量一起工作良好。（我也從字典和語料庫中刪除了波蘭的變音符號。）該函數可以很好地處理文本向量。不幸的是，它不適用於由tm生成的語料庫格式

2熱度

1回答

無法在R中加載'tm'軟件包

這是我第一次嘗試在R中安裝和加載tm軟件包，至此我失敗了。這裏是我的機器信息： > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) Matrix products: defaul

1熱度

2回答

按行合併兩個文檔術語矩陣

我在csv文件中有客戶服務的客戶查詢和答案。我需要確定每個問題的主題，然後在此基礎上開發一個分類模型。我創建了兩個文檔術語表（清理文檔後），一個用於提問，另一個用於答案。我通過在整個文檔中僅使用400次以上的術語（大約4萬個問題和答案）縮小了規模。我想創建一個數據框，將這兩個矩陣按行合併，只保留常見的單詞並回答dtm（並將它們的頻率相加，我應該如何在R中執行此操作？最高頻率單詞標記的問題。上的

0熱度

1回答

在R中的文本挖掘中表示羣集的更好的羣集樹狀圖

在三個文檔中（除去稀疏項後）我有大約1140個術語。我想獲得有關集羣的信息。如附圖所示，我製作了集羣，但我無法閱讀它們。我也嘗試了k-均值集羣，但同樣的問題依然存在。我對所有的術語都沒有太大的興趣，但明確界定的只有少數三四個團隊可以完成這項工作。我一直在R中使用tm包進行文本挖掘。其次，我也在尋找在單個文檔中尋找關聯的方法;因此，如何將文本文件分割爲多個文本文件，即如果我的文件有三個句子： Doc

1熱度

1回答

R，有沒有什麼方法可以通過使用多個內核來創建termdocumentmatrix？

你好。是否有任何方式通過使用多核，並行處理來創建termdocumentmatrix？或者爲了獲得更快的結果，我可以使用一些軟件包，比如parallel，h2o或其他軟件包嗎？有人幫我。謝謝。