quanteda

0熱度

1回答

我有一個數據集（Facebook的帖子）（通過netvizz），我用R中的quanteda軟件包。這是我的R代碼。 # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC") # Read Fil

2熱度

1回答

將lexisnexis輸出導入到R quanteda

我想使用Benoit的R-package quanteda來分析從lexisnexis導出的文章。導出爲標準的html格式。我使用tm package +插件來讀取lexisnexis輸出。不幸的是，將tm-corpus轉換爲quanteda-corpus時發生錯誤。這個功能是否被破壞，或者我之前有什麼錯誤？ library("tm") library("tm.plugin.lexisnexis

1熱度

1回答

在R中沒有停用詞的形式bigrams

我最近在使用R的文本挖掘中遇到了一些問題。目的是在新聞中找到有意義的關鍵詞，例如「智能車」和「數據挖掘」。比方說，如果我有一個字符串，如下所示： "IBM have a great success in the computer industry for the past decades..." 刪除停用詞（「有」，「一」，「中」，「中」，「爲」）後， "IBM great su

0熱度

2回答

使用R和Quanteda計算大型語料庫上的n-gram

我正在嘗試使用Great Quanted包從大型語料庫（R中大小約1Gb的對象大小）構建n-gram。我沒有可用的雲資源，因此我使用自己的筆記本電腦（Windows和/或Mac，12Gb RAM）進行計算。如果我將數據分解成小塊，代碼就可以工作，並且我得到了不同大小n-gram的（部分）dfm，但是當我嘗試在整個語料庫上運行代碼時，不幸的是，該文集的大小，並得到以下錯誤（unigram進行示例

0熱度

1回答

使用quanteda計算R中大型語料庫的餘弦相似度

我正在嘗試使用一個非常大的大約85,000個推文，我試圖與電視廣告中的對話進行比較。但是，由於我的語料庫的大小，我無法處理餘弦相似性度量，而沒有得到「錯誤：無法分配大小爲n的向量」消息（本例中爲26 GB）。我已經在具有大量內存的服務器上運行R 64位。我也嘗試在內存最多的服務器上使用AWS（244 GB），但無濟於事（同樣的錯誤）。有沒有辦法使用像fread這樣的軟件包來解決這個內存限制問題

2熱度

1回答

使用詞典在Quanteda中創建Bigram

我試圖從我的數據文本分析中刪除拼寫錯誤。所以我正在使用量子包的字典功能。它適用於Unigrams。但它爲Bigrams提供了意想不到的輸出。不知道如何處理拼寫錯誤，以便他們不會潛入我的Bigrams和Trigrams。 ZTestCorp1 <- c("The new law included a capital gains tax, and an inheritance tax.",

1熱度

1回答

在dfm（）輸出中包含ID號碼

我有一個包含ID號碼列和文本列的數據集，並且我正在使用quanteda包對文本數據運行LIWC分析。這是我的數據設置的例子： mydata<-data.frame( id=c(19,101,43,12), text=c("No wonder, then, that ever gathering volume from the mere transit ", "So t

0熱度

1回答

Windows中的R無法處理某些字符

我在Linux中執行了LDA，並且在主題2中沒有得到像「ø」這樣的字符。但是，它們在Windows中運行時顯示。有誰知道如何處理這個？我使用包quanteda和topicmodels。 > terms(LDAModel1,5) Topic 1 Topic 2 [1,] "car" "ø" [2,] "build" "ù" [3,] "work" "network" [4,] "drive