2014-04-24 260 views

回答

2

好吧,一直在嘗試不同的事情來幫助解決您的問題。最後我有個想法。

所以基本上你不能依靠通過訪問該頁面獲得的靜態html。所以,在我的瀏覽器中查看Network標籤,我發現兩個請求非常X秒(沒有注意到這一點)。 所以,你可以(通過調用此URL列表頂部)獲得你的第一個信息:

http://mediametrics.ru/rating/ru/online.tsv?page=1&update=1401216280 

最後一個參數update則需要相應地改變它的那一刻,你做的請求。這是一個時代。 從該請求獲得內容類型text/plain的響應。不幸的是,這不是你最大的回覆:

URL Title Visitors Delta Shift ID 819 1401216700 0 
     508 -7 0 88680394  
     247 4 0 88193830  
     137 0 -1 88777121  
     135 -3 1 88585317  
     110 -3 -5 12773355 hot 
     92 0 0 88724182  
     79 -2 0 88171489  
     76 1 0 88325612  
     59 -3 0 88362537  
     58 -2 0 88585583  
     48 0 -1 88473319  
     47 0 -1 88782428  
     46 0 -31 88470684 hot2 
     45 -5 1 88865695  
     44 1 -1 88652852  
     44 2 -1 88679946  
     43 -1 2 88711744  
     40 1 0 88652022  
     38 1 0 88681949  
     37 0 -1 88359733  
     36 2 -2 88612187  
     35 1 -18 88671532 hot 
     35 -2 0 88324438  
     34 1 0 88869913  
     34 1 0 88586542  
     33 0 0 88509191  
     33 0 2 88717302  
     32 0 -20 88603116 hot 
     31 -2 2 88176393  
     30 0 -30 88644435 hot2 
     29 1 0 88686770  
     28 -2 0 88213989  
     26 0 -1 88562683  
     24 -3 2 88634740  
     24 0 -12 88247749 hot 
     24 0 0 88257193  
     24 0 0 88350559  
     21 -2 0 88682576  
     21 0 -4 88847895  
     19 0 -1 88864392  
     19 0 -1 88677033  
     19 0 -3 88850105  
     18 0 0 88658580  
     17 0 -3 88649865  
     17 1 -18 88578308 hot 
     17 1 5 88326429  
     16 0 -1 88285506  
     16 -1 0 88603395  
     15 -2 4 88527942  
     15 2 -16 88199416  

基本上,從第二列,你想第四場(即88680394)。 這隻會給你的網站的ID,從這個「網站ID」獲得其餘的信息,你需要另一個請求此頁面中,並指定先前提取「網站標識」:

http://mediametrics.ru/rating/index.tsv?titles=88680394 

這將返回以下響應:

russian.rt.com/article/33873 Ополченцы ДНР: К нам пришло большое подкрепление 0 0 0 88680394 hot 

從您就可以完成所需要的信息這最後的響應。 我還沒有給出一個實際的實現,但考慮到你提到你已經嘗試過Python,我認爲從這裏爲你的實現會更容易。