2014-03-19 297 views
0

我是新來的這種類型的問題,所以我有關於從網站抓取數據的問題。我需要從某個網站檢索數據,因爲我知道可以以csv或xls文件的形式檢索數據。但是,我如何獲得網址來下載它?從網站抓取數據

例如,我打開一些衣服店,看到所有的分類,是以某種方式接收文件(csv或其他)形式的數據?或者我需要解析某種方式的HTML?

回答

1

瞭解基本

第一:這一切都取決於網站(靜態/動態)和需求(你想抓住進出你記錄的數據類型)的類型。

第二,重要的一條:你需要學習如何讓您的首選語言的Web請求。另外,如何序列化/反序列化各種文件格式的數據。

這裏是一個不錯的職位從X王上創建一個Java履帶:

http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/

它應該讓你開始你的目的。

希望它有幫助!

+0

第二部分對我來說是可以理解的。我只是想知道如何獲取網站的內容文件。我知道我應該創建請求來接收這個文件並解析它。但是請求是基於某個url創建的,應該用數據返回文件。那麼如何知道應該處理哪個url? – Martin

+0

你說什麼語言? –

+0

我正在談論Java – Martin

0

對我來說,我建議你使用網絡抓取工具,因爲它更容易和更方便。如果您以前沒有使用任何其他網絡抓取工具,我會建議您直接使用網絡抓取工具。它可以幫助你從網站提取數據到Excel或CSV格式,只要你想。如果您有興趣,可以參閱本案例教程以瞭解更多信息。 Scrape Data from Airbnb into Excel