2016-04-26 109 views
-2

我遇到了the page。基於它,我寫了下面的代碼。代碼運行。我想要一些額外的結果。任何建議或備用包,你可以建議?我創建字1,因爲我想搜索「埃裏克 - 布萊索」 /兩字,而不是(「埃裏克」,「布萊德索」)python web scraping gnp軟件包

import gnp 
word= 'eric bledsoe' 
word1='"' + word + '"' 
c = gnp.get_google_news_query(word1) 
#c = gnp.get_google_news_query("What's happening on earth") 
print (c) 
  1. 我怎樣才能得到一個時間戳(6小時回來,4月25日, 2016等)是與每個新聞關聯的 ?
  2. 我如何限制在過去365天內發佈的新聞?
  3. 我怎樣才能只採取頂級x條目?例如,我想只看到頂部 1000個結果?我如何瀏覽2,3,4 .... google新聞 頁面?
+0

請限制自己每個帖子一個問題。 – MattDMo

+0

請告訴我,即使他們非常相似(與同一問題有關),我也不能發佈超過1個問題的規則。 – user2543622

+1

不完全是一個規則,但[這裏](https://stackoverflow.com/help/on-topic)它是(強調我的):「**太寬泛**,不清楚,不完整或主要意見 - 可能會被社區擱置,直到他們得到改善「。每個帖子詢問多個問題讓你的問題過於寬泛。 –

回答

1

你不能。你使用的軟件包不支持任何這些東西。

一般來說,我建議你避免使用該軟件包。它本質上是脆弱的,因爲它基於刮取Google新聞的HTML輸出,而不是使用任何官方(甚至非官方!)API,並且如果Google重新設計他們的新聞界面可能會中斷。

+0

你是對的@duskwuff。 'gnp'包是爲我的分析目的而創建的,如果Google更改新聞版式,則需要返工。它直到用戶建立在軟件包上的附加功能。 – Manuel