用rvest讀取文檔正文的原始文本？

我很愚蠢地試圖讀取網站的原始文本內容。目的是爲文本分析（例如詞頻）創建語料庫。所以，我想所有的HTML剝離掉了，裏面的標籤內容，使用此代碼返回爲原始文本:-)用rvest讀取文檔正文的原始文本？

：

thispage < - read_html（下一頁）
寫（thispage，文件，追加= TRUE，九月=「」）

產生一個錯誤，因爲read_html（）返回一個指針數組：

我會在這裏提交的錯誤信息，如果接口會讓我，但我只是得到一個紅方框說「你的帖子出現rs來包含代碼「，然後是一些不會與chrome一起工作的指令。

我知道我可以使用SelectorGadget等來查明DOM的特定對象並檢索這些對象。但我希望有一個更簡單的方法。它存在嗎？

感謝+歡呼聲，自我

2016-11-09 edvin

我建議嘗試刮的標準rvest方式：讓所有的HTML，然後選擇你的id，並搶得的原始文本：

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()

2016-11-09 16:21:29 kbrunner

當然，這就是我已經認識到了。我已經有了它的框架：分頁，抓取所有網址，全部訪問它們並刮擦相關的塊，下一頁......等等。我目前正在處理標題，並將處理保存在單獨的文件中。然後，我可以分別開發拼圖以後再生成更大的語料庫。 – edvin

回答