corpus

-1熱度

1回答

我在同一個文件夾中的cats.txt中列出了一堆文件和類別。我想爲此創建一個categorizedtaggedcorpusreader。這就是我的文件的外觀。在nltk中嘗試了很多方法，但無法創建Categorizedtaggedcorpusreader，在我的cats.txt裏面我有文件名和類別名稱，空格分開，每個文件名可以有多個類別。例如： mail_1_adapter適配器 mail_

1熱度

3回答

從存儲在JSON文件中的文本中創建語料庫R

我有幾個JSON文件，文本分組爲date,body和title。例如，考慮： {"date": "December 31, 1990, Monday, Late Edition - Final", "body": "World stock markets begin 1991 facing the threat of a war in the Persian Gulf, recessions or

0熱度

1回答

quanteda不從corpusSource對象創建語料庫

我正在使用帶有4Gb RAM的32位操作系統的Windows 7，其中只有3Gb可由於32位限制而被訪問。我關閉了所有其他東西，可以看到在啓動之前我有大約1Gb的緩存和1Gb可用空間。「免費」的內存有所不同，但有時是0. 使用量子 - 我正在閱讀twitter.txt文件使用textfile（）命令，它成功地創建了一個157Mb的corpusSource對象。當我採用下一步使用corpus（）命

0熱度

1回答

如何取每個語料庫的前25個單詞（R）？

我猜測這種技術與從任何數據框中取前N個字符相似，無論它是否是語料庫。我嘗試： create.greetings <- function(corpus, create_df = FALSE) { for(i in length(Charlotte.corpus.raw)) { Doc1<-Charlotte.corpus.raw[i] Word1<-Doc1[1:25

0熱度

2回答

wordnet在不同的文本？

我是nltk的新手，我發現wordnet功能非常有用。它給出了synsets,hypernyms,等等。但是，它顯然沒有給出諸如'德里' - '海得拉巴'之類的位置之間的相似性，因爲這些詞不在詞網語料庫中。因此，我想知道，如果以某種方式，我可以更新字網絡語料庫，或者在不同的語料庫上創建字詞，例如，從維基百科中提取的與旅行相關的一組頁面？如果我們可以根據不同的語料庫創建wordnet，那麼格式是

0熱度

2回答

保留來自R corpus的確切單詞

從發表答案：將文檔ID與R語料庫保持@MrFlick 我想略微修改一個很好的例子。問題：如何修改content_transformer功能只保留確切話嗎？您可以在檢查輸出中看到奇妙的計數爲奇蹟和比率計爲基本原理。我對gregexpr和regmatches沒有深入的瞭解。創建數據幀：現在 dd <- data.frame( id = 10:13, text = c("No wo

0熱度

1回答

語料庫與許多元素，以數據幀，然後保存爲CSV

我有一組9個CSV文件，我使用下面的命令將其導入，並做一些數據預處理： library(tm) filenames <- list.files(getwd(),pattern=」*.txt」) files <- lapply(filenames,readLines) docs <- Corpus(VectorSource(files)) 然後我刪除停止詞。現在，我有一個包含9個元素的語

0熱度

1回答

如何使用nltk python 3.4創建類似於movie_review的語料庫3.4

我遇到了一個問題，我只想總結一下我正在嘗試完成的內容，以便您獲得清晰的圖像來指導我。我想創建一個語料庫類似的東西movie_reviews其中movie_review只有2個類別，但如果在我來說，我將有多個類別和子類別。例如：說我有一個語料庫my_corpus中，我想創建的類別，如 'A'， 'B'， 'C'， 'd' 和 'E'。每個類別都將包含子類別，例如在'A'中，我想要子類別，

-1熱度

2回答

如何使用quanteda將元數據附加到文本語料庫？

我正在使用quanteda來創建文本語料庫並嘗試附加元數據，但我不斷收到錯誤。我之前在另一個數據集上使用過這個代碼，但由於某種原因，它不適用於我當前的數據集。該代碼是： dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的錯誤是

0熱度

1回答

如何簡單地提取布朗語料庫NLTK中的單詞和標籤？

NLTK具有對棕色語料庫的接口和POS標籤和它可以這樣進行訪問： >>> from nltk.corpus import brown >>> brown.tagged_sents() [[(u'The', u'AT'), (u'Fulton', u'NP-TL'), (u'County', u'NN-TL'), (u'Grand', u'JJ-TL'), (u'Jury', u'NN-TL')