text2vec

    0熱度

    1回答

    目前之間的相容性,我們使用在AWS EC2(單個實例)text2vec處理大數據集時,文本數據將在未來越來越大,我們可能會嘗試RHadoop(MapReduce的)架構和別t知道它是否可以兼容text2vec和RHadoop(MapReduce)。

    1熱度

    1回答

    lemmes我想用外部的txt文件,結構爲波蘭引理如下: (來源引理對許多其他語言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1熱度

    1回答

    我想使用在text2vec中實現的GloVe單詞嵌入來執行有監督的迴歸/分類。我閱讀了關於如何生成單詞向量的text2vec主頁上的有用教程。然而,我很難理解如何進一步進行,即應用或轉換這些單詞向量,並將它們附加到每個文檔中,使得每個文檔都由一個向量表示(從其組成單詞'我假設的向量派生而來'),在分類器中用作輸入。我在網上找到了一些短文檔的快速修復,但是我的文檔相當長(電影字幕),似乎沒有關於如何

    2熱度

    1回答

    我想知道不同的軟件包,因此,算法的結果有什麼不同,以及參數是否可以設置爲產生類似的主題。我特別看了包text2vec和topicmodels。 我使用下面的代碼來比較使用這些包生成的10個主題(請參閱代碼部分的術語)。我無法設法產生具有類似含義的主題集。例如。來自text2vec的話題10與「警察」有關,topicmodels所產生的主題都不涉及「警察」或類似術語。此外,我無法確定由topicmo

    0熱度

    1回答

    的錯誤是: > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (vocabulary

    0熱度

    1回答

    我有大量文檔,並且想使用text2vec和LDA(Gibbs Sampling)進行主題建模。 步驟我需要的是爲(按順序): 從文本中刪除數字和符號 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

    0熱度

    1回答

    有關更多上下文,請參閱question listed here。 我試圖使用text2vec構建的文檔術語矩陣來訓練使用caret包的樸素貝葉斯(nb)模型。但是,我得到這樣的警告消息: 警告消息: 在的eval(XPR,ENVIR = ENVIR): 模型擬合失敗Fold01.Rep1:usekernel = FALSE,FL = 0,調整= 1個錯誤NaiveBayes.default(X,Y

    1熱度

    4回答

    我想使用大型外部詞典(類似於下面的txt變量的格式)來解讀波蘭文本。我不幸運,有一個選擇波蘭文與流行的文本挖掘軟件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717與簡單的文本向量一起工作良好。 (我也從字典和語料庫中刪除了波蘭的變音符號。)該函數可以很好地處理文本向量。 不幸的是,它不適用於由tm生成的語料庫格式

    0熱度

    2回答

    text2vec中的語法是如何將文本向量化並僅通過指定的單詞列表實現dtm? 如何僅在指示的要素上進行矢量化並生成文檔項矩陣?如果功能沒有出現在文本中,變量應該保持空白。 我需要生成與dtm中運行建模的字段完全相同的文檔矩陣,否則我無法在新文檔上使用隨機森林模型。 - 它不會工作好2)執行 v = create_vocabulary(c("word1", "word2")) vectorizer

    0熱度

    1回答

    我想分析一個大文本文件夾,用於存在多種語言的名稱,地址和電話號碼。 這些通常會以「地址」,「電話號碼」,「名稱」,「公司」,「醫院」,「送達者」之前。我會有這些詞的字典。 我在想,如果文本挖掘工具是完美的工作。 我想爲所有這些文檔創建一個語料庫,然後在給定字典條目的右側或下方找到符合特定(我正在考慮正則表達式條件)的文本。 在R中的數據挖掘軟件包中是否有這樣的語法, 以獲取字詞表條目右側或下側的字