2014-07-20 36 views
1

我使用tm.plugin.webmining獲得有關公司的最新消息說,微軟使用以下命令[R webcorpus屬性提取

corpus<-WebCorpus(GoogleBlogSearchSource(stock)) 

當我運行元(文集[[1]] )我得到

元數據:

作者:符(0) datetimestamp:2014-07-17 20:28:10 description:微軟裁員ÃÃÂ,ÃÂ,âÂ,Â「什麼意思是爲MSFT StockInvestorplace.com雖然裁員顯然 將成爲對工人最爲困難,因爲投資者我們仍然必須以合理客觀的眼光看待公司,看看它對於MSFT的意義是什麼, 「特別是如果你是親自微軟股票持有者爲什麼微軟(MSFT)股價上漲 今天TheStreet.com盈利預覽:微軟公司(MSFT), 蘋果公司(AAPL),Facebook ...微軟的裁員計劃告訴我們關於Satya Nadella的願景?Motley FoolTech Insider--內幕猴(博客)全部2,176條新聞文章» 標題:微軟裁員âÃ「Â」它意味着什麼MSFT股票 - Investorplace.com id:tag:news.google.com 2005年:集羣= http://investorplace.com/2014/07/microsoft-layoffs-means-msft-stock/ 語言:字符(0) 產地:http://news.google.com/news/url?sa=t&fd=R&ct2=us&usg=AFQjCNEadqFvThyxvJU3O5uHa6wiyoWNEw&clid=c3a7d30bb8a4878e06b80cf16b898331&cid=52778559643673&ei=Cr3LU8jGNMnNkwX_lYCICQ&url=http://investorplace.com/2014/07/microsoft-layoffs-means-msft-stock/

所以我在這裏看到,不同屬性的位置,但是當我運行

Headers<-sapply(meta(corpus,FUN=function(x){attr(x,"heading")}) 

頭是一個列表100個空值的項目。我很確定這個特定的代碼在幾天前運行。之間的變化是我重新安裝在新系統上的軟件包,並且還將R更新爲3.1.1而不是R 3.1.0(更早)

我能做些什麼來獲得單獨的頭文件列表,描述時間戳等,我後來想轉換成100X3數據幀。

回答

0

與最新的R,請嘗試以下代碼:

代碼:

headers<-meta(corpus,tag="heading")