quanteda

    0熱度

    1回答

    我有一個數據集(Facebook的帖子)(通過netvizz),我用R中的quanteda軟件包。這是我的R代碼。 # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC") # Read Fil

    2熱度

    1回答

    我想使用Benoit的R-package quanteda來分析從lexisnexis導出的文章。導出爲標準的html格式。我使用tm package +插件來讀取lexisnexis輸出。不幸的是,將tm-corpus轉換爲quanteda-corpus時發生錯誤。這個功能是否被破壞,或者我之前有什麼錯誤? library("tm") library("tm.plugin.lexisnexis

    1熱度

    1回答

    我最近在使用R的文本挖掘中遇到了一些問題。 目的是在新聞中找到有意義的關鍵詞,例如「智能車」和「數據挖掘」。 比方說,如果我有一個字符串,如下所示: "IBM have a great success in the computer industry for the past decades..." 刪除停用詞( 「有」, 「一」, 「中」, 「中」, 「爲」)後, "IBM great su

    0熱度

    2回答

    我正在嘗試使用Great Quanted包從大型語料庫(R中大小約1Gb的對象大小)構建n-gram。 我沒有可用的雲資源,因此我使用自己的筆記本電腦(Windows和/或Mac,12Gb RAM)進行計算。 如果我將數據分解成小塊,代碼就可以工作,並且我得到了不同大小n-gram的(部分)dfm,但是當我嘗試在整個語料庫上運行代碼時,不幸的是,該文集的大小,並得到以下錯誤(unigram進行示例

    0熱度

    1回答

    我正在嘗試使用一個非常大的大約85,000個推文,我試圖與電視廣告中的對話進行比較。但是,由於我的語料庫的大小,我無法處理餘弦相似性度量,而沒有得到「錯誤:無法分配大小爲n的向量」消息(本例中爲26 GB)。 我已經在具有大量內存的服務器上運行R 64位。我也嘗試在內存最多的服務器上使用AWS(244 GB),但無濟於事(同樣的錯誤)。 有沒有辦法使用像fread這樣的軟件包來解決這個內存限制問題

    2熱度

    1回答

    我試圖從我的數據文本分析中刪除拼寫錯誤。所以我正在使用量子包的字典功能。它適用於Unigrams。但它爲Bigrams提供了意想不到的輸出。不知道如何處理拼寫錯誤,以便他們不會潛入我的Bigrams和Trigrams。 ZTestCorp1 <- c("The new law included a capital gains tax, and an inheritance tax.",

    1熱度

    1回答

    我有一個包含ID號碼列和文本列的數據集,並且我正在使用quanteda包對文本數據運行LIWC分析。這是我的數據設置的例子: mydata<-data.frame( id=c(19,101,43,12), text=c("No wonder, then, that ever gathering volume from the mere transit ", "So t

    0熱度

    1回答

    我在Linux中執行了LDA,並且在主題2中沒有得到像「ø」這樣的字符。但是,它們在Windows中運行時顯示。有誰知道如何處理這個?我使用包quanteda和topicmodels。 > terms(LDAModel1,5) Topic 1 Topic 2 [1,] "car" "ø" [2,] "build" "ù" [3,] "work" "network" [4,] "drive