我目前正試圖刮掉從我解析爲HTML文本樹如下: -提取文本有R
require(RCurl)
require(XML)
query.IMDB <- getURL('http://www.imdb.com/title/tt0096697/epdate') #Simpsons episodes, rated and ordered by broadcast date
names(query.IMDB)
query.IMDB
query.IMDB <- htmlParse(query.IMDB)
df.IMDB <- getNodeSet(query.IMDB, "//*/div[@class='rating rating-list']")
我第一次嘗試只是用grep上所產生的矢量,但是這失敗了。
我的下一個嘗試是對在query.IMDB向量的個別點用grep: -
vect <- numeric(length(df.IMDB))
for (i in 1:length(df.IMDB)){
vect[i] <- data[grep("Users rated this", "", df.IMDB)]
}
但是這也引發了不關閉錯誤subsettable。
最後嘗試上述功能,無需data[]
的grep
各地拋出
Error in df.IMDB[i] <- grep("Users rated this", "", df.IMDB[i]) : replacement has length zero
實際上,我希望能最終取代,除了一些形式[0-9].[0-9]
的給定文本字符串空格下面的一切,但我首先做一個簡單的版本來讓事情奏效。
任何人都可以建議我應該使用編輯中的每個點上的文字我query.IMDB矢量
有_may_是一個API,[見這裏](http://stackoverflow.com/questions/1966503/does-imdb-provide-an-api)。 – halfer
你想做什麼?你想提取什麼文字?你想閱讀收視率表嗎? – agstudy
是的,我想編制一個評級表。 –