2014-01-22 128 views
0

我在R..my數據的新的程序員在下面給出,我想從這個corpus.my示例代碼下面圖案提取

MY CORPUS OR文件

還給出提取兩個或多個詞在網上

蘋果上衣逛街我們對蘋果的零售銷售AAPL移動 設備比對谷歌goog銷售androidpowered 智能手機和平板電腦根據來自IB的報告佔所有在線銷售活動 高倍m蘋果ios智能商務擁有者 設備花費平均每pm和蘋果面臨邊際壓力 井富戈證券降級蘋果aapl股票上市執行 表示公司的毛利率將來到 壓力下釋放其下一個智能手機可能被稱爲iphone作爲無線服務提供商拉回 補貼零售股下跌並有時上漲pm et synaptics跟隨蘋果進入指紋識別市場synaptics syna a 領先的電腦和手機觸摸界面製造商設備是 擴大到不斷增長的指紋識別市場 聖何塞califbased公司toute d其11月收購 指紋身份證公司有效性傳感器作爲其不可分割的一部分
pm在移動購物美國零售 蘋果aapl移動設備的銷售額是銷售額的五倍 記錄谷歌goog androidpowered智能手機和平板電腦 根據IBM智慧商務的單元IBM(IBM),但IBM的跟蹤比我們更多的零售網站上找到

超高清curvedscreen電視在CES上銷售下降超 高清晰度電視可穿戴計算機可穿戴大的 發佈的一份報告週四並且傳感器和消費者也是其中之一cts預計下週將在波爾大街 拉斯維加斯消費電子展正式被稱爲 國際消費電子展它預計將吸引超過
pm等四大產品蘋果可能會在購買蘋果aapl ceo中推出 蒂姆庫克曾談到是一個令人振奮的一年,新的蘋果 產品,包括被有意模糊的新的類別,但HES 行業分析師都與他們的最好的猜測打壓了哪些新的 產品,我們可以從蘋果預計在未來的一年


我已經手動爲關鍵字提取聲明瞭一個字典,但問題是,我無法從此語料庫中提取兩個或更多關鍵字出現次數或頻率。 任何建議

我的代碼示例

這是我的文集代碼

corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en")) 

這是我的字典

which_words<-Dictionary(c("move up","sale","stock goes up")) 

這是我的匹配代碼

total<-(DocumentTermMatrix(corpus,list(dictionary = which_words))) 

這是我的結果

inspect(total) 
     Terms 
Docs move up sale stock goes up 
1.txt  0  1  0 
+1

我不確定「上移」或「股票上漲」是「單個」字。 – agstudy

+0

親愛的主席先生,舉起來是兩個字,股票漲了三個字,並且銷售是一個字。我把它放在一個單一的字符串,如「上移」,「出售」,「股票上漲」。 – user3222412

回答

0

你可以用一個詞串聯詞的解決方法:

txt <- gsub("move up","moveup",txt) 
txt <- gsub("goes up","goesup",txt) 
txt <- gsub("goes down","goesdown",txt) 

library(tm) 

corpus <- Corpus(VectorSource(txt)) 
which_words <- c("moveup","sale","goesup","goesdown") 
total <- DocumentTermMatrix(corpus,list(dictionary = which_words)) 
inspect(total) 
Docs goesdown goesup moveup sale 
    1  1  0  1 1 

不過,最好是看到一些情感分析包來做到這一點。