2012-10-17 271 views
1

我想要得到的Android應用程序信息的數據集,其中包括應用程序名稱,包名稱,版本,請求允許應用程序信息等網絡爬蟲從Android Market

官方Android應用市場的谷歌播放。市場上有數百萬種應用。我想從它得到至少數以萬計的應用程序信息,並將其存儲到csv文件中。舉例來說,這裏是一個應用程序的鏈接: https://play.google.com/store/apps/details?id=de.ralphsapps.snorecontrol

  • 的問題是如何讓應用程序的URL列表?
  • 如何解析網頁中的信息?

有什麼好的網絡爬蟲適合這種工作嗎?或者是否有任何腳本語言,如python,具有這種爬行功能?

謝謝。

+0

嘗試的[API](HTTP://計算器。 COM /問題/ 10272155 /獲取數據 - 從 - Android的播放存儲)。如果它不能滿足你的需求,那麼可以回饋補丁? – bgs

+0

非常感謝。您的信息很有用! – babysnow

+0

@babysnow得到了同樣的問題。你是如何克服這一點的? –

回答

0

Google Play Store有它自己的格式來顯示HTML中的信息對象。 編寫您自己的HTML解析器以獲取所需的信息。

這是最好的JSoup.org使用JSoup這份工作,

或參考我的樣品教程JSoup作爲解析器: Parsing HTML using JSoup

+0

我想知道如何從Google Play獲取網址列表? – babysnow

+0

抓住每個類別的索引頁上的所有網址 –

+0

我發現Python也有HTMLParser。我更喜歡Python,因爲腳本更容易編寫。 Java庫似乎需要更多的努力。 – babysnow