2012-10-08 48 views
0

考慮到大多數語言都有webscraping功能是內置的,或者其他人所做的,這更是一個普遍webscraping問題。高效地webpraping網站沒有api?

我有,我想從約6個不同的頁面中提取信息的站點。這通常不會那麼糟糕;但不幸的是,在這些網頁上的信息改變,大約每十秒鐘,這可能意味着2000查詢一個小時(這是根本不行的)。我也沒有考慮過這個網站。是否有任何可能有效的方式來獲得的信息,我需要而不請求淹沒他們,還是我的運氣是多少?

+0

請問你的網站通知用戶如果結果更新慢? – Skizz

回答

0

在最好的情況,當你請求的網站可能返回你在它的頭一個HTTP 304 Not Modified - 表明您不需要下載頁面,一切都沒有改變。如果網站設置爲這樣做,這可能有助於減少帶寬,但仍然需要相同數量的請求。

如果存在一致的更新時間表,那麼至少您知道何時提出請求 - 但您仍然需要詢問(即:發出請求)以找出哪些信息發生了變化。