corpus

    -1熱度

    1回答

    我在同一個文件夾中的cats.txt中列出了一堆文件和類別。我想爲此創建一個categorizedtaggedcorpusreader。 這就是我的文件的外觀。 在nltk中嘗試了很多方法,但無法創建Categorizedtaggedcorpusreader,在我的cats.txt裏面我有文件名和類別名稱,空格分開,每個文件名可以有多個類別。 例如: mail_1_adapter適配器 mail_

    1熱度

    3回答

    我有幾個JSON文件,文本分組爲date,body和title。例如,考慮: {"date": "December 31, 1990, Monday, Late Edition - Final", "body": "World stock markets begin 1991 facing the threat of a war in the Persian Gulf, recessions or

    0熱度

    1回答

    我正在使用帶有4Gb RAM的32位操作系統的Windows 7,其中只有3Gb可由於32位限制而被訪問。我關閉了所有其他東西,可以看到在啓動之前我有大約1Gb的緩存和1Gb可用空間。 「免費」的內存有所不同,但有時是0. 使用量子 - 我正在閱讀twitter.txt文件使用textfile()命令,它成功地創建了一個157Mb的corpusSource對象。當我採用下一步使用corpus()命

    0熱度

    1回答

    我猜測這種技術與從任何數據框中取前N個字符相似,無論它是否是語料庫。 我嘗試: create.greetings <- function(corpus, create_df = FALSE) { for(i in length(Charlotte.corpus.raw)) { Doc1<-Charlotte.corpus.raw[i] Word1<-Doc1[1:25

    0熱度

    2回答

    我是nltk的新手,我發現wordnet功能非常有用。它給出了synsets,hypernyms,​​等等。但是,它顯然沒有給出諸如'德里' - '海得拉巴'之類的位置之間的相似性,因爲這些詞不在詞網語料庫中。因此,我想知道,如果以某種方式,我可以更新字網絡語料庫,或者在不同的語料庫上創建字詞,例如,從維基百科中提取的與旅行相關的一組頁面?如果我們可以根據不同的語料庫創建wordnet,那麼格式是

    0熱度

    2回答

    從發表答案:將文檔ID與R語料庫保持@MrFlick 我想略微修改一個很好的例子。 問題:如何修改content_transformer功能只保留確切話嗎?您可以在檢查輸出中看到奇妙的計數爲奇蹟和比率計爲基本原理。我對gregexpr和regmatches沒有深入的瞭解。 創建數據幀:現在 dd <- data.frame( id = 10:13, text = c("No wo

    0熱度

    1回答

    我有一組9個CSV文件,我使用下面的命令將其導入,並做一些數據預處理: library(tm) filenames <- list.files(getwd(),pattern=」*.txt」) files <- lapply(filenames,readLines) docs <- Corpus(VectorSource(files)) 然後我刪除停止詞。 現在,我有一個包含9個元素的語

    0熱度

    1回答

    我遇到了一個問題,我只想總結一下我正在嘗試完成的內容,以便您獲得清晰的圖像來指導我。 我想創建一個語料庫類似的東西movie_reviews其中movie_review只有2個類別,但如果在我來說,我將有多個類別和子類別。 例如: 說我有一個語料庫my_corpus中,我想 創建的類別,如 'A', 'B', 'C', 'd' 和 'E'。每個 類別都將包含子類別,例如在'A'中,我想要 子類別,

    -1熱度

    2回答

    我正在使用quanteda來創建文本語料庫並嘗試附加元數據,但我不斷收到錯誤。我之前在另一個數據集上使用過這個代碼,但由於某種原因,它不適用於我當前的數據集。該代碼是: dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的錯誤是

    0熱度

    1回答

    NLTK具有對棕色語料庫的接口和POS標籤和它可以這樣進行訪問: >>> from nltk.corpus import brown >>> brown.tagged_sents() [[(u'The', u'AT'), (u'Fulton', u'NP-TL'), (u'County', u'NN-TL'), (u'Grand', u'JJ-TL'), (u'Jury', u'NN-TL')