必要的是,通過某個時間段,獲取網站http://mediametrics.ru/rating/ru/online.html上的第一條消息。從網站獲取消息
我正在通過Python,Selenium進行開發。 我嘗試了不同的方式:閱讀html,並嘗試從JavaScript獲得響應,但沒有任何反應。
必要的是,通過某個時間段,獲取網站http://mediametrics.ru/rating/ru/online.html上的第一條消息。從網站獲取消息
我正在通過Python,Selenium進行開發。 我嘗試了不同的方式:閱讀html,並嘗試從JavaScript獲得響應,但沒有任何反應。
如果我正確理解你.....,請嘗試使用requests和BeautifulSoup。
Here你可以找到真正好的教程。
好吧,一直在嘗試不同的事情來幫助解決您的問題。最後我有個想法。
所以基本上你不能依靠通過訪問該頁面獲得的靜態html。所以,在我的瀏覽器中查看Network
標籤,我發現兩個請求非常X秒(沒有注意到這一點)。 所以,你可以(通過調用此URL列表頂部)獲得你的第一個信息:
http://mediametrics.ru/rating/ru/online.tsv?page=1&update=1401216280
最後一個參數update
則需要相應地改變它的那一刻,你做的請求。這是一個時代。 從該請求獲得內容類型text/plain
的響應。不幸的是,這不是你最大的回覆:
URL Title Visitors Delta Shift ID 819 1401216700 0
508 -7 0 88680394
247 4 0 88193830
137 0 -1 88777121
135 -3 1 88585317
110 -3 -5 12773355 hot
92 0 0 88724182
79 -2 0 88171489
76 1 0 88325612
59 -3 0 88362537
58 -2 0 88585583
48 0 -1 88473319
47 0 -1 88782428
46 0 -31 88470684 hot2
45 -5 1 88865695
44 1 -1 88652852
44 2 -1 88679946
43 -1 2 88711744
40 1 0 88652022
38 1 0 88681949
37 0 -1 88359733
36 2 -2 88612187
35 1 -18 88671532 hot
35 -2 0 88324438
34 1 0 88869913
34 1 0 88586542
33 0 0 88509191
33 0 2 88717302
32 0 -20 88603116 hot
31 -2 2 88176393
30 0 -30 88644435 hot2
29 1 0 88686770
28 -2 0 88213989
26 0 -1 88562683
24 -3 2 88634740
24 0 -12 88247749 hot
24 0 0 88257193
24 0 0 88350559
21 -2 0 88682576
21 0 -4 88847895
19 0 -1 88864392
19 0 -1 88677033
19 0 -3 88850105
18 0 0 88658580
17 0 -3 88649865
17 1 -18 88578308 hot
17 1 5 88326429
16 0 -1 88285506
16 -1 0 88603395
15 -2 4 88527942
15 2 -16 88199416
基本上,從第二列,你想第四場(即88680394
)。 這隻會給你的網站的ID,從這個「網站ID」獲得其餘的信息,你需要另一個請求此頁面中,並指定先前提取「網站標識」:
http://mediametrics.ru/rating/index.tsv?titles=88680394
這將返回以下響應:
russian.rt.com/article/33873 Ополченцы ДНР: К нам пришло большое подкрепление 0 0 0 88680394 hot
從您就可以完成所需要的信息這最後的響應。 我還沒有給出一個實際的實現,但考慮到你提到你已經嘗試過Python,我認爲從這裏爲你的實現會更容易。
它對你有幫助嗎? – qwetty