0
我已經提取IMDB上的電影評論,但是單獨的評論在它們之間有很多空行。它是非結構化的,很難查看。 我必須分別對每個函數應用某些函數,然後將它們一起存儲爲1,用於某些其他函數的文本挖掘。使用rvest從IMDB中刮掉電影評論
我該如何構造(清潔)它們並一次訪問它們,以及如何將它們組合並將它們存儲在一起?
這裏是我刮評論
ID <- 1490017
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific")
MOVIE_URL <- read_html(URL)
ex_review <- MOVIE_URL %>%
html_nodes("p") %>%
html_text()
這大大提高了提取效果。非常感謝您的回答。然而,我的主要問題是能夠處理我已經提取的評論,因爲我無法這樣做。對它們進行處理,就像刪除每個評論之間的多條線一樣。同時結合文字形成所有評論的一大段。因爲我還需要進行全面分析。 –
我編輯的答案適合你嗎? – motorrrr
使用此方法不會刪除換行符。其他的事情工作正常:) –