我在R..my數據的新的程序員在下面給出,我想從這個corpus.my示例代碼下面圖案提取
MY CORPUS OR文件
還給出提取兩個或多個詞在網上蘋果上衣逛街我們對蘋果的零售銷售AAPL移動 設備比對谷歌goog銷售androidpowered 智能手機和平板電腦根據來自IB的報告佔所有在線銷售活動 高倍m蘋果ios智能商務擁有者 設備花費平均每pm和蘋果面臨邊際壓力 井富戈證券降級蘋果aapl股票上市執行 表示公司的毛利率將來到 壓力下釋放其下一個智能手機可能被稱爲iphone作爲無線服務提供商拉回 補貼零售股下跌並有時上漲pm et synaptics跟隨蘋果進入指紋識別市場synaptics syna a 領先的電腦和手機觸摸界面製造商設備是 擴大到不斷增長的指紋識別市場 聖何塞califbased公司toute d其11月收購 指紋身份證公司有效性傳感器作爲其不可分割的一部分
pm在移動購物美國零售 蘋果aapl移動設備的銷售額是銷售額的五倍 記錄谷歌goog androidpowered智能手機和平板電腦 根據IBM智慧商務的單元IBM(IBM),但IBM的跟蹤比我們更多的零售網站上找到超高清curvedscreen電視在CES上銷售下降超 高清晰度電視可穿戴計算機可穿戴大的 發佈的一份報告週四並且傳感器和消費者也是其中之一cts預計下週將在波爾大街 拉斯維加斯消費電子展正式被稱爲 國際消費電子展它預計將吸引超過
pm等四大產品蘋果可能會在購買蘋果aapl ceo中推出 蒂姆庫克曾談到是一個令人振奮的一年,新的蘋果 產品,包括被有意模糊的新的類別,但HES 行業分析師都與他們的最好的猜測打壓了哪些新的 產品,我們可以從蘋果預計在未來的一年
我已經手動爲關鍵字提取聲明瞭一個字典,但問題是,我無法從此語料庫中提取兩個或更多關鍵字出現次數或頻率。 任何建議
我的代碼示例
這是我的文集代碼
corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))
這是我的字典
which_words<-Dictionary(c("move up","sale","stock goes up"))
這是我的匹配代碼
total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))
這是我的結果
inspect(total)
Terms
Docs move up sale stock goes up
1.txt 0 1 0
我不確定「上移」或「股票上漲」是「單個」字。 – agstudy
親愛的主席先生,舉起來是兩個字,股票漲了三個字,並且銷售是一個字。我把它放在一個單一的字符串,如「上移」,「出售」,「股票上漲」。 – user3222412