2015-04-23 91 views
1

我是一個相對較新的python。我剛剛學會了如何使用python來識別網頁中的網址。但是,現在我想從網頁中的圖表中提取數據。
http://index.baidu.com/?tpl=trend&word=%D0%CB%D2%B5%D6%A4%C8%AF使用python從交互式網頁提取數據

我有三個問題,我需要意見。

  1. 它需要登錄才能看到網頁。 (用戶名:1​​8521057966; pw:saifmf)
  2. 無法從源代碼中找到數據(我假設爲html)
  3. 如果我們可以找到哪個部分是圖表,我們如何提取數據。
+0

嘗試硒或機械化與美麗的湯。我無法幫助你,因爲我無法閱讀那種語言/ –

回答

0
  1. 使用Selenium with Python bindings。我推薦這是因爲該頁面使用JavaScript來完成登錄。
  2. 如果信息出現在頁面上,那麼它也適用於您。換句話說,如果瀏覽器可以看到信息(如果它正在呈現它的話),那麼你也可以看到它。它可能在源代碼中。使用谷歌瀏覽器,將鼠標懸停在您想要檢查的元素上,右鍵單擊它,然後選擇「檢查元素」。這將帶來檢查員。即使源代碼中沒有東西可用,檢查員(ctrl+shift+i)也可以看到它。
  3. 這取決於。我會首先推薦這麼做。一旦您在檢查員中找到了信息,您可以選擇該元素並使用硒獲取text,然後以您希望的任何形式輸出它(例如,構建一個CSV)。 This question discusses進一步從元素獲取文本。