text-analysis

    0熱度

    1回答

    我正在開發一個R項目。我使用的數據集在以下鏈接處可用 https://www.kaggle.com/ranjitha1/hotel-reviews-city-chennai/data 我已經使用的代碼是。 df1 = read.csv("chennai.csv", header = TRUE) library(tidytext) tidy_books <- df1 %>% unnest_tok

    -1熱度

    2回答

    我在我的csv中有一個列,其中有一個字段「features」。該領域有數據以這種格式 {""Air conditioning"",""Elevator"",""Smoke detector""} {""Air conditioning"",""Railing Lights"",""Smoke detector""} {""Air conditioning"",""Washer"",""Drye

    0熱度

    1回答

    我使用分佈式word2vec算法創建了詞向量。現在我有單詞和相應的向量。如何使用這些單詞和向量來構建gen​​sim word2vec模型?

    0熱度

    1回答

    我想從它的[0:10]字符的句子列表中切出每個句子。句子的列表 例如:列表名稱= sd_list [ '我出生在德里的長大。', '我使用的戴爾Latitude E5140筆記本電腦自2012年', 「我在ABC公司工作,因爲2014年」] 我試圖通過運行下面的代碼,每個句子的前10個字符切片和失敗。 sent10 = [s[0:10] for s in sd_list] 通過運行這個我遇到了

    2熱度

    3回答

    我一直在探索NLP技術,目標是確定調查評論的主題(然後將其與情感分析結合使用)。我想做出高水平的表述,例如「10%的受訪者對客戶經理做出了積極的評論(+觀點)」。 我的方法使用了Named Entity Recognition (NER)。現在我正在處理真實數據,現在我可以看到與識別句子主題相關的複雜性&。這裏有5個例子,其中主題是客戶經理。出於演示目的,我已將該命名實體加粗。 我們客戶經理是偉大

    0熱度

    2回答

    如果在400萬觀測數據文件的每一行中出現約2000字的一個,我正在使用R和寫腳本來計算腳本。具有觀察值(df)的數據集包含兩列,一列包含文本(df $ lead_paragraph),另一列包含日期(df $ date)。 使用以下內容,我可以計算列表(p)中的任何單詞是否出現在df文件的lead_paragraph列的每一行中,並將答案作爲新列輸出。 df$pcount<-((rowSums(s

    1熱度

    1回答

    我正在使用R和Python,並試圖在一定程度上學習基於文本的分析和NLP。 問題:我如何拆分句子是句子像下面 句子=我喜歡我喜歡的系統,我不喜歡被人跟蹤過程中的應用程序組合。 我想這句話分成 我喜歡的應用程序 我喜歡的系統 我不喜歡這個過程所遵循 注:我能夠分割一個像下面這樣的句子,因爲它有一個.來表示句子的結尾 句子=我喜歡這個應用程序。我喜歡這個系統。我不喜歡這個過程。 VJ

    1熱度

    2回答

    我在csv文件中有客戶服務的客戶查詢和答案。我需要確定每個問題的主題,然後在此基礎上開發一個分類模型。我創建了兩個文檔術語表(清理文檔後),一個用於提問,另一個用於答案。我通過在整個文檔中僅使用400次以上的術語(大約4萬個問題和答案)縮小了規模。 我想創建一個數據框,將這兩個矩陣按行合併,只保留常見的單詞並回答dtm(並將它們的頻率相加,我應該如何在R中執行此操作?最高頻率單詞標記的問題。 上的

    1熱度

    1回答

    因此,我已經有了TDM,但它在Excel上。所以我將它保存爲CSV。現在我想做一些分析,但是我不能將它作爲使用tm包的TDM加載。我的CSV看起來是這樣的: item01 item02 item03 item04 red 0 1 1 0 circle 1 0 0 1 fame 1 0 0 0 yellow 0 0 1 1

    2熱度

    1回答

    我正在研究我的機器學習模型和我擁有的數據的功能。我的數據包含很多文本數據,所以我想知道如何從中提取有價值的功能。相反,我以前的信仰,這往往是由表示與袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction) 因爲我對這個問題的理解是有限的,我不明白爲什