corpus

    1熱度

    1回答

    我的第一個電報chatbot出現問題,用Chatterbot庫完成。 我的項目是由組成: Procfile 要求(txt文件) telegramtoken(txt文件) 運行時(txt文件) NLTK(txt文件) botusers(csv文件) magghybot(py文件) Magghy(PY文件) 對話(名爲郎文件夾中的陽明文件) math_words(名爲郎文件夾中的JSON文件) 我部署

    -1熱度

    1回答

    我是一名新手R/tm用戶,我有一個愚蠢但令人討厭的問題。 後通過這條線下載884 KB TM封裝[install.packages(「TM」),制定自己的工作目錄,打開我的文件,我試圖用這個功能: 語料庫< -Corpus (VectorSource(mycorpus $ title)) 作爲迴應,R軟件寫道:「未找到語料庫功能」。 我需要安裝更多的軟件包還是我做錯了什麼? 在問你之前,我已經在這

    0熱度

    3回答

    我是數據科學領域的文學學生。我試圖分析一個包含70個.txt文件的語料庫,這些文件都在一個目錄中。 我的最終目標是獲得一個包含文件名(或類似內容),句子和單詞計數,Flesch-Kincaid可讀性評分和MTLD詞彙多樣性分數的表格。 我發現了包koRpus和tm(和tm.plugin.koRpus),並試圖理解他們的文檔,但還沒有走到很遠。在RKward IDE和koRpus-Plugin的幫助

    -1熱度

    1回答

    我正在嘗試爲特定類別構建我自己的語料庫,如工程,商業,數學,科學等......這將用於自動網頁分類。比方說,我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎? 另一個相關的問題。這與一個詞彙有什麼區別呢,而不是一個網站列表,它顯示了一個帶有權重的單詞列表,例如0或1到特定的類別?例如,情感詞典中包含正面和負面權重的詞彙。但不是正面和負面,而是使用諸如數學,科學等類別。

    1熱度

    1回答

    我在文章的n-gram矩陣上運行randomforest,因爲我想將它分類爲2個類別。作爲RF的結果,我收到了重要變量的列表。 現在我想只在選定的前n個特徵上運行隨機森林,然後使用相同的特徵來預測新的分類。對於那個 我只需要爲最重要的變量(來自RF)創建dfm。 如何從這些重要變量的列表創建詞典? 代碼的相關部分...創建字典後,我只有一個條目。如何正確創建它? forestModel <-

    0熱度

    1回答

    我對R很新。使用TM包,我試圖通過替換同義詞來清理一組txt文檔。 由於我將處理大量數據,我試圖使用excel設置一個表格,其中第一列中的單詞將替換爲第二列中的單詞,並執行循環以替換我的單詞語料庫。我的代碼如下所示: library(tm) docs <- Corpus(DirSource("C:....txt files")) list <- read.csv("C:\\.....syno

    0熱度

    2回答

    我正在建立一個文本分類器,將文本分類爲主題。 作爲清潔數據的一部分,我在程序的第一階段刪除了所有非英語單詞。爲此,我使用nltk.corpus.words.words()語料庫。這個語料庫的問題在於,它刪除了「現代」英語單詞,如Facebook,Instagram等。是否有人知道另一個更現代的語料庫,我可以用它來替代或結合現在的語料庫? 我更喜歡nltk語料庫,但我願意接受其他建議。 在此先感謝

    3熱度

    1回答

    我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    1熱度

    1回答

    在R中做一些文本挖掘我在25k文檔的區域中有一個語料庫。我目前正在清理我的語料庫,並將其作爲我翻譯成小寫字母的過程的一部分。我的執行: createCorpus <- function(corpusData){ aCorpus <- Corpus(DataframeSource(corpusData)) ... aCorpus <- tm_map(aCorpus,co

    0熱度

    1回答

    我處理在R A vcorpus,看起來像這樣: 我打電話內容 - >內容,然後將內容 - >薈萃>爲每個單獨的文檔ID。我想只寫內容 - >內容和內容 - >元 - > ID來爲每個文檔稍後分開文本文件。