2015-11-18 65 views
-3

我正在嘗試從知識網上的75,000篇文章中收集數據。所有數據可以在每篇文章的網頁上查看。作爲編程的絕對初學者,我不確定如何做到這一點,而不是手動。有沒有我可以在R或任何其他平臺上使用的代碼直接從網頁提取數據,而無需下載所有文章?在線數據收集

回答

1

rvest是一個非常好的R包,用於報廢一般網絡數據。它幾乎可以做任何python庫Beautiful SoupScrapy所做的一切。

XML是另一個可用於網絡報廢的軟件包。

對於報廢Twitter,您可以使用twitteR包和用於Facebook的Rfacebook包。

使用RTidyHTML包來糾正HTML中的錯誤。