圖案提取

我在R..my數據的新的程序員在下面給出，我想從這個corpus.my示例代碼下面圖案提取

MY CORPUS OR文件

還給出提取兩個或多個詞在網上

蘋果上衣逛街我們對蘋果的零售銷售AAPL移動設備比對谷歌goog銷售androidpowered 智能手機和平板電腦根據來自IB的報告佔所有在線銷售活動高倍m蘋果ios智能商務擁有者設備花費平均每pm和蘋果面臨邊際壓力井富戈證券降級蘋果aapl股票上市執行表示公司的毛利率將來到壓力下釋放其下一個智能手機可能被稱爲iphone作爲無線服務提供商拉回補貼零售股下跌並有時上漲pm et synaptics跟隨蘋果進入指紋識別市場synaptics syna a 領先的電腦和手機觸摸界面製造商設備是擴大到不斷增長的指紋識別市場聖何塞califbased公司toute d其11月收購指紋身份證公司有效性傳感器作爲其不可分割的一部分
pm在移動購物美國零售蘋果aapl移動設備的銷售額是銷售額的五倍記錄谷歌goog androidpowered智能手機和平板電腦根據IBM智慧商務的單元IBM（IBM），但IBM的跟蹤比我們更多的零售網站上找到

超高清curvedscreen電視在CES上銷售下降超高清晰度電視可穿戴計算機可穿戴大的發佈的一份報告週四並且傳感器和消費者也是其中之一cts預計下週將在波爾大街拉斯維加斯消費電子展正式被稱爲國際消費電子展它預計將吸引超過
pm等四大產品蘋果可能會在購買蘋果aapl ceo中推出蒂姆庫克曾談到是一個令人振奮的一年，新的蘋果產品，包括被有意模糊的新的類別，但HES 行業分析師都與他們的最好的猜測打壓了哪些新的產品，我們可以從蘋果預計在未來的一年

我已經手動爲關鍵字提取聲明瞭一個字典，但問題是，我無法從此語料庫中提取兩個或更多關鍵字出現次數或頻率。任何建議

我的代碼示例

這是我的文集代碼

corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))

這是我的字典

which_words<-Dictionary(c("move up","sale","stock goes up"))

這是我的匹配代碼

total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))

這是我的結果

inspect(total) 
     Terms 
Docs move up sale stock goes up 
1.txt  0  1  0

來源

2014-01-22 user3222412

我不確定「上移」或「股票上漲」是「單個」字。 – agstudy

親愛的主席先生，舉起來是兩個字，股票漲了三個字，並且銷售是一個字。我把它放在一個單一的字符串，如「上移」，「出售」，「股票上漲」。 – user3222412

你可以用一個詞串聯詞的解決方法：

txt <- gsub("move up","moveup",txt) 
txt <- gsub("goes up","goesup",txt) 
txt <- gsub("goes down","goesdown",txt) 

library(tm) 

corpus <- Corpus(VectorSource(txt)) 
which_words <- c("moveup","sale","goesup","goesdown") 
total <- DocumentTermMatrix(corpus,list(dictionary = which_words)) 
inspect(total) 
Docs goesdown goesup moveup sale 
    1  1  0  1 1

不過，最好是看到一些情感分析包來做到這一點。

來源

2014-01-22 09:02:38 agstudy

回答

相關問題