2012-05-07 50 views
1

此問題來自非技術人員。我曾要求一個團隊構建一種RSS閱讀器。本質上,它是一個新聞聚合器。我們首先想到的是直接從特定來源獲取新聞:ft.com,reuters.com和bloomberg.com。RSS閱讀器上的驗證碼?

現在,開發團隊已經提出了一種做法(因爲它會更容易)......這是使用news.google.com並返回任何結果。現在我知道這是有問題的合法性,我們對這個事實並不是那麼舒服,但是當法律部門正在檢查......我們已經開始使用原型。

現在出現技術問題......因爲該方法實際上是通過news.google.com模擬搜索,經過一段時間後它會返回驗證碼。我很懷疑它是因爲方法是搜索結果以RSS而不是直接RSS ...然而,開發團隊說RSS是完全一樣的東西......並且它會給captcha作爲好。

我有我的疑惑。如果是這樣的話,其他新聞聚合網站如何完成不同來源的彙總彙編?

供您參考,這裏是一樣的,最終給出了CAPTCHA的URL https://news.google.com/news/feeds?hl=en&gl=sg&as_qdr=a&authuser=0&q=dbs+bank+singapore&bav=on.2,or.r_gc.r_pw.r_cp.,cf.osb&biw=1280&bih=963&um=1&ie=UTF-8&output=rss

回答

2

「搜索」通常一個驗證碼的後面,因爲它是非常耗費資源,因此,他們盡一切可能防止機器人從搜索。一般的RSS提要與資源密集型相反。總結一下:正常的RSS提要可能不會觸發CAPTCHA的。