tm

    0熱度

    1回答

    我正在用R中的tm-package創建文檔項矩陣,但是我的語料庫中的某些單詞在某個過程中會丟失。 我會用一個例子來解釋。然而 dm <- DocumentTermMatrix(crps) dm_matrix <- as.matrix(dm) dm_matrix # Terms # Docs and bout class home hours more next night # 1 1 1

    0熱度

    1回答

    我有一個很大的語料庫,我正在與tm::tm_map()進行轉換。由於我使用託管的R Studio,因此我有15個內核,並希望利用並行處理來加快速度。 沒有共享一個非常大的語料庫,我簡直無法用虛擬數據重現。 我的代碼如下。對問題的簡短描述是在控制檯中手動循環切片,但在我的函數內部不這樣做。 函數「clean_corpus」將語料庫作爲輸入,將其分解成片段並保存到臨時文件以幫助解決內存問題。然後該函數

    2熱度

    1回答

    我剛剛在R中開始使用tm包,似乎無法解決問題。 雖然我的分詞器的功能似乎工作權: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    -1熱度

    1回答

    我是一名新手R/tm用戶,我有一個愚蠢但令人討厭的問題。 後通過這條線下載884 KB TM封裝[install.packages(「TM」),制定自己的工作目錄,打開我的文件,我試圖用這個功能: 語料庫< -Corpus (VectorSource(mycorpus $ title)) 作爲迴應,R軟件寫道:「未找到語料庫功能」。 我需要安裝更多的軟件包還是我做錯了什麼? 在問你之前,我已經在這

    0熱度

    1回答

    我有大量文檔,並且想使用text2vec和LDA(Gibbs Sampling)進行主題建模。 步驟我需要的是爲(按順序): 從文本中刪除數字和符號 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

    1熱度

    4回答

    我想使用大型外部詞典(類似於下面的txt變量的格式)來解讀波蘭文本。我不幸運,有一個選擇波蘭文與流行的文本挖掘軟件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717與簡單的文本向量一起工作良好。 (我也從字典和語料庫中刪除了波蘭的變音符號。)該函數可以很好地處理文本向量。 不幸的是,它不適用於由tm生成的語料庫格式

    2熱度

    1回答

    這是我第一次嘗試在R中安裝和加載tm軟件包,至此我失敗了。這裏是我的機器信息: > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) Matrix products: defaul

    1熱度

    2回答

    我在csv文件中有客戶服務的客戶查詢和答案。我需要確定每個問題的主題,然後在此基礎上開發一個分類模型。我創建了兩個文檔術語表(清理文檔後),一個用於提問,另一個用於答案。我通過在整個文檔中僅使用400次以上的術語(大約4萬個問題和答案)縮小了規模。 我想創建一個數據框,將這兩個矩陣按行合併,只保留常見的單詞並回答dtm(並將它們的頻率相加,我應該如何在R中執行此操作?最高頻率單詞標記的問題。 上的

    0熱度

    1回答

    在三個文檔中(除去稀疏項後)我有大約1140個術語。我想獲得有關集羣的信息。如附圖所示,我製作了集羣,但我無法閱讀它們。我也嘗試了k-均值集羣,但同樣的問題依然存在。我對所有的術語都沒有太大的興趣,但明確界定的只有少數三四個團隊可以完成這項工作。我一直在R中使用tm包進行文本挖掘。其次,我也在尋找在單個文檔中尋找關聯的方法;因此,如何將文本文件分割爲多個文本文件,即如果我的文件有三個句子: Doc

    1熱度

    1回答

    你好。 是否有任何方式通過使用多核,並行處理來創建termdocumentmatrix?或者爲了獲得更快的結果,我可以使用一些軟件包,比如parallel,h2o或其他軟件包嗎? 有人幫我。 謝謝。