2016-11-09 60 views
1

我很愚蠢地試圖讀取​​網站的原始文本內容。 目的是爲文本分析(例如詞頻)創建語料庫。 所以,我想所有的HTML剝離掉了,裏面的標籤內容,使用此代碼返回爲原始文本:-)用rvest讀取文檔正文的原始文本?

thispage < - read_html(下一頁)
寫(thispage,文件,追加= TRUE,九月=「」)

產生一個錯誤,因爲read_html()返回一個指針數組:

我會在這裏提交的錯誤信息,如果接口會讓我, 但我只是得到一個紅方框說「你的帖子出現rs來包含代碼「,然後是一些不會與chrome一起工作的指令。

我知道我可以使用SelectorGadget等來查明DOM的特定對象並檢索這些對象。但我希望有一個更簡單的方法。它存在嗎?

感謝+歡呼聲, 自我

回答

1

我建議嘗試刮的標準rvest方式:讓所有的HTML,然後選擇你的id,並搶得的原始文本:

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text() 
+0

當然,這就是我已經認識到了。 我已經有了它的框架:分頁,抓取所有網址,全部訪問它們並刮擦相關的塊,下一頁......等等。 我目前正在處理標題,並將處理保存在單獨的文件中。然後,我可以分別開發拼圖以後再生成更大的語料庫。 – edvin