-3
我正在嘗試從知識網上的75,000篇文章中收集數據。所有數據可以在每篇文章的網頁上查看。作爲編程的絕對初學者,我不確定如何做到這一點,而不是手動。有沒有我可以在R或任何其他平臺上使用的代碼直接從網頁提取數據,而無需下載所有文章?在線數據收集
我正在嘗試從知識網上的75,000篇文章中收集數據。所有數據可以在每篇文章的網頁上查看。作爲編程的絕對初學者,我不確定如何做到這一點,而不是手動。有沒有我可以在R或任何其他平臺上使用的代碼直接從網頁提取數據,而無需下載所有文章?在線數據收集
rvest
是一個非常好的R包,用於報廢一般網絡數據。它幾乎可以做任何python庫Beautiful Soup
或Scrapy
所做的一切。
XML
是另一個可用於網絡報廢的軟件包。
對於報廢Twitter,您可以使用twitteR
包和用於Facebook的Rfacebook
包。
使用RTidyHTML
包來糾正HTML中的錯誤。