corpus

1熱度

1回答

我的第一個電報chatbot出現問題，用Chatterbot庫完成。我的項目是由組成： Procfile 要求（txt文件） telegramtoken（txt文件）運行時（txt文件） NLTK（txt文件） botusers（csv文件） magghybot（py文件） Magghy（PY文件）對話（名爲郎文件夾中的陽明文件） math_words（名爲郎文件夾中的JSON文件）我部署

-1熱度

1回答

R，「tm」包 - 錯誤：語料庫函數未找到

我是一名新手R/tm用戶，我有一個愚蠢但令人討厭的問題。後通過這條線下載884 KB TM封裝[install.packages（「TM」），制定自己的工作目錄，打開我的文件，我試圖用這個功能：語料庫< -Corpus （VectorSource（mycorpus $ title））作爲迴應，R軟件寫道：「未找到語料庫功能」。我需要安裝更多的軟件包還是我做錯了什麼？在問你之前，我已經在這

0熱度

3回答

使用R和koRpus編譯和分析語料庫

我是數據科學領域的文學學生。我試圖分析一個包含70個.txt文件的語料庫，這些文件都在一個目錄中。我的最終目標是獲得一個包含文件名（或類似內容），句子和單詞計數，Flesch-Kincaid可讀性評分和MTLD詞彙多樣性分數的表格。我發現了包koRpus和tm（和tm.plugin.koRpus），並試圖理解他們的文檔，但還沒有走到很遠。在RKward IDE和koRpus-Plugin的幫助

-1熱度

1回答

可以將網站列表視爲特定類別的語料庫嗎？

我正在嘗試爲特定類別構建我自己的語料庫，如工程，商業，數學，科學等......這將用於自動網頁分類。比方說，我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎？另一個相關的問題。這與一個詞彙有什麼區別呢，而不是一個網站列表，它顯示了一個帶有權重的單詞列表，例如0或1到特定的類別？例如，情感詞典中包含正面和負面權重的詞彙。但不是正面和負面，而是使用諸如數學，科學等類別。

1熱度

1回答

Quanteda：如何從單詞列表中創建相同功能的dfms

我在文章的n-gram矩陣上運行randomforest，因爲我想將它分類爲2個類別。作爲RF的結果，我收到了重要變量的列表。現在我想只在選定的前n個特徵上運行隨機森林，然後使用相同的特徵來預測新的分類。對於那個我只需要爲最重要的變量（來自RF）創建dfm。如何從這些重要變量的列表創建詞典？代碼的相關部分...創建字典後，我只有一個條目。如何正確創建它？ forestModel <-

0熱度

1回答

R：錯誤時循環取代同義詞上的語料庫

我對R很新。使用TM包，我試圖通過替換同義詞來清理一組txt文檔。由於我將處理大量數據，我試圖使用excel設置一個表格，其中第一列中的單詞將替換爲第二列中的單詞，並執行循環以替換我的單詞語料庫。我的代碼如下所示： library(tm) docs <- Corpus(DirSource("C:....txt files")) list <- read.csv("C:\\.....syno

0熱度

2回答

找到'現代'nltk單詞語料庫

我正在建立一個文本分類器，將文本分類爲主題。作爲清潔數據的一部分，我在程序的第一階段刪除了所有非英語單詞。爲此，我使用nltk.corpus.words.words（）語料庫。這個語料庫的問題在於，它刪除了「現代」英語單詞，如Facebook，Instagram等。是否有人知道另一個更現代的語料庫，我可以用它來替代或結合現在的語料庫？我更喜歡nltk語料庫，但我願意接受其他建議。在此先感謝

3熱度

1回答

在R中使用DocumentTermMatrix和'dictionary'參數

我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣： library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

1熱度

1回答

在R中轉換表情文本

在R中做一些文本挖掘我在25k文檔的區域中有一個語料庫。我目前正在清理我的語料庫，並將其作爲我翻譯成小寫字母的過程的一部分。我的執行： createCorpus <- function(corpusData){ aCorpus <- Corpus(DataframeSource(corpusData)) ... aCorpus <- tm_map(aCorpus,co

0熱度

1回答

如何訪問語料庫的元素並在R中寫入文件？

我處理在R A vcorpus，看起來像這樣：我打電話內容 - >內容，然後將內容 - >薈萃>爲每個單獨的文檔ID。我想只寫內容 - >內容和內容 - >元 - > ID來爲每個文檔稍後分開文本文件。