quanteda

    0熱度

    1回答

    我想分析一個大文本文件夾,用於存在多種語言的名稱,地址和電話號碼。 這些通常會以「地址」,「電話號碼」,「名稱」,「公司」,「醫院」,「送達者」之前。我會有這些詞的字典。 我在想,如果文本挖掘工具是完美的工作。 我想爲所有這些文檔創建一個語料庫,然後在給定字典條目的右側或下方找到符合特定(我正在考慮正則表達式條件)的文本。 在R中的數據挖掘軟件包中是否有這樣的語法, 以獲取字詞表條目右側或下側的字

    0熱度

    1回答

    爲了在處理非常大的語料庫樣本時節省內存空間,我期待僅取前10個1grams並將其與所有2至5grams結合以形成我的單一的quanteda :: dfmSparse對象將用於自然語言處理[nlp]預測。對所有1克進行操作將毫無意義,因爲只有前十名[或二十名]才能使用我正在使用的簡單後退模型。 我無法找到指示它只返回頂部##特徵的quanteda :: dfm(corpusText,...)參數。所

    0熱度

    1回答

    我正在嘗試構建一個Shiny應用程序,該應用程序可以通過從文本框(即文本框)匹配語料庫來動態顯示數據庫列中的句子。當用戶開始在文本框中輸入文本時,所有匹配的句子(文本類型中的語料)需要按照與語料庫匹配的詞數順序顯示 我嘗試了kwic函數,但這並不幫助匹配語料庫動態,做法,我試過了, require(quanteda) require(tm) data(crude, package = "tm"

    1熱度

    1回答

    我使用quanteda建設兩個文件特徵矩陣: library(quanteda) DFM1 <- dfm("this is a rock") # features # docs this is a rock # text1 1 1 1 1 DFM2 <- dfm("this is music") # features # docs this is music # text1 1

    1熱度

    1回答

    lemmes我想用外部的txt文件,結構爲波蘭引理如下: (來源引理對許多其他語言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1熱度

    1回答

    可以說一個叫做textstat_frequency{package:quanteda} 的函數爲我們提供了以下數據幀。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C 什麼是塑造根據矢量 c("B"

    0熱度

    1回答

    我使用Ken Benoit和Paul Nulty的quanteda軟件包處理文本數據。 我的語料庫包含帶有完整德語句子的文本,我只想處理每個文本的名詞。德語中的一個竅門是僅使用大寫字母,但這在句子的開頭就會失敗。 Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands") Text2 <- c("In Hamburg r

    1熱度

    2回答

    我正嘗試將使用tm的腳本遷移到量子。閱讀量子文檔有一個關於應用「下游」變化的原理,以便原始語料庫不變。好。 我以前寫過一個腳本來查找我們的tm語料庫中的拼寫錯誤,並得到了我們團隊的支持以創建手動查找。所以,我有一個包含2列的csv文件,第一列是拼寫錯誤術語,第二列是該術語的正確版本。 利用TM包之前我這樣做: # Write a custom function to pass to tm_map

    0熱度

    1回答

    我有一個大的1M文檔語料庫工作,並已申請了幾次改變從創建它的文檔頻率矩陣時: library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remove = stopwords("english"),

    1熱度

    4回答

    我想使用大型外部詞典(類似於下面的txt變量的格式)來解讀波蘭文本。我不幸運,有一個選擇波蘭文與流行的文本挖掘軟件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717與簡單的文本向量一起工作良好。 (我也從字典和語料庫中刪除了波蘭的變音符號。)該函數可以很好地處理文本向量。 不幸的是,它不適用於由tm生成的語料庫格式