網絡抓取：從統計選項卡中獲取Youtube視頻的股份

有沒有人知道一種工具或方式來獲取youtube視頻（不是我的）的股份？我想將它們存儲到數據庫中。它不適用於yt api。另一個問題是，並非每個yt視頻都有統計信息選項卡。網絡抓取：從統計選項卡中獲取Youtube視頻的股份

到目前爲止，我嘗試了Youtube API，jsoup HTML Parser（顯示股票的div不存在，儘管它通過firefox中的inspect顯示），而import.io演示正在工作，但肯定太昂貴。

謝謝！

2017-06-20 neodymium

問題，要求我們建議還是找一本書，工具，軟件庫，教程或其他關閉網站資源是堆棧溢出的主題，因爲它們傾向於吸引自以爲是的答案和垃圾郵件。相反，請描述問題以及到目前爲止解決問題所做的工作。 – DaImTo

最好的辦法是看網絡日誌，在這種情況下，它顯示了一個POST上：

https://www.youtube.com/insight_ajax?action_get_statistics_and_data=1&v=$video_id

它發出了一個XSRF令牌在體內即在視頻的原始HTML體內可用https://www.youtube.com/watch?v=$video_id網頁的JavaScript對象，如：

yt.setConfig({ 
    'XSRF_TOKEN': "QUFFLUhqbnNvZUx4THR3eV80dHlacV9tRkRxc2NwSjlXQXxBQ3Jtc0ttd0JLWENnMjdYNE5IRWhibE9ZdDJTSk1aMktxTDR5d3JjSnkzVUtQWVcwdnp3X0tSOXEtM3hZdzVFdjNPeGpPRGtLVU5pVXV0SmtfdWJSUHNqTVg2WXBndjZpa3d6U25ja2FTelBBVWRlT0lZZkRDaDV6SU94VWE3cnpERHhWNVlUYWdyRjFqN1hvc0VLRmVwcEY3ZWdJMWgyUmc=", 
    'XSRF_FIELD_NAME': "session_token", 
    'XSRF_REDIRECT_TOKEN': "VlhMkn6F56dGGYcm4Rg7jCZR0vJ8MTQ5ODA1NzIwMkAxNDk3OTcwODAy" 
});

它也需要在這同一個視頻頁面中設置一些餅乾。

以下bash腳本會：

請求視頻頁面https://www.youtube.com/watch?v=$video_id與curl
保存到一個名爲cookie.txt
文件中的Cookie提取下面的請求被稱爲session_token的XSRF_TOKEN與sed
請求視頻統計頁面https://www.youtube.com/insight_ajax?action_get_statistics_and_data=1&v=$video_id與curl與餅乾預先viously存儲
解析XML結果提取CDATA部分與xml_grep
解析HTML與pup提取bragbar-metric類股利和轉換HTML結果與json{}
使用jq JSON解析器JSON提取text場（它包含所得的視圖值，時間觀看，訂閱，股）
使用sed以除去Unicode字符

腳本：

video_id=CPkU0dF4JKo 

session_token=$(curl -s -c cookie.txt "https://www.youtube.com/watch?v=$video_id" | \ 
    sed -rn "s/.*'XSRF_TOKEN'\s*:\s*\"(.*)\".*/\1/p") 

curl -s -b cookie.txt -d "session_token=$session_token" \ 
    "https://www.youtube.com/insight_ajax?action_get_statistics_and_data=1&v=$video_id" | \ 
    xml_grep --text_only 'html_content' | \ 
    pup 'div table tr .bragbar-metric json{}' | \ 
    jq -r '.[].text' | \ 
    sed 's/\xc2\x91\|\xc2\x92\|\xc2\xa0\|\xe2\x80\x8e//'

它給出的意見數量，觀看時間，訂閱股份：

來源

2017-06-20 15:31:28

網絡抓取：從統計選項卡中獲取Youtube視頻的股份

回答

相關問題