1
我很愚蠢地試圖讀取網站的原始文本內容。 目的是爲文本分析(例如詞頻)創建語料庫。 所以,我想所有的HTML剝離掉了,裏面的標籤內容,使用此代碼返回爲原始文本:-)用rvest讀取文檔正文的原始文本?
:
thispage < - read_html(下一頁)
寫(thispage,文件,追加= TRUE,九月=「」)
產生一個錯誤,因爲read_html()返回一個指針數組:
我會在這裏提交的錯誤信息,如果接口會讓我, 但我只是得到一個紅方框說「你的帖子出現rs來包含代碼「,然後是一些不會與chrome一起工作的指令。
我知道我可以使用SelectorGadget等來查明DOM的特定對象並檢索這些對象。但我希望有一個更簡單的方法。它存在嗎?
感謝+歡呼聲, 自我
當然,這就是我已經認識到了。 我已經有了它的框架:分頁,抓取所有網址,全部訪問它們並刮擦相關的塊,下一頁......等等。 我目前正在處理標題,並將處理保存在單獨的文件中。然後,我可以分別開發拼圖以後再生成更大的語料庫。 – edvin