2012-05-03 78 views
0

對於科學研究,我不想進行Twitter的研究,因此,需要大量的推文。
我有5種不同語言的10個句子,我不想實時匹配。我這樣做是爲了過濾掉其他語言的推文。我不想爲所有5種語言推出相同數量的推文。這可能會很棘手,因爲某些語言過多(例如英語)。此外,我不想收集24小時內散播的數據。我正在考慮每隔15分鐘收集100條推文,以便與那些特定語言的關鍵字匹配。Twitter的流API與多語言關鍵字和速率限制

我知道我必須使用流媒體API實時收集推文,但我怎樣才能以5種不同的語言收集推文(每15分鐘限制100條推文),並在15分鐘內擴散。期限基於一個http請求認證?

回答

0

你應該看看Twitter Streaming API和node.js的實現。 https://github.com/technoweenie/twitter-node

+0

看了一下它,似乎仍然很難實施它,每15分鐘有100條推文的速率限制。每種語言都有特定的關鍵字。因此,總共5種語言* 100(每15分鐘的推文)* 4(每小時的季度)=來自5個不同國家(語言)的2000個推文每小時一次。 PHP中沒有這個我可以修改的東西嗎?還是有另一種解決方案,如使5個不同的連接,每個有1個關鍵字語言,然後速度限制這些語言單獨? – TRD07

+0

實際上twitter-node正在使用Twitter的流媒體API。 這意味着你可以實時接收到所有推文(根據你的過濾器當然) 服務器推送新的推文給你,所以你不需要做大量的請求。 我認爲這是你想要做的最好的方式。 你可以在這裏找到更多關於這個流API的信息: https://dev.twitter.com/docs/streaming-api – Antoine