我正在使用Twitter數據開展社區檢測項目,我需要根據關係創建網絡。我收集並過濾了200,000個UID。我的下一步是在他們之間建立一個朋友/追隨者網絡。有更好的方法來收集Twitter數據嗎?
我正在使用Ruby腳本和Twitter Gem來收集,處理和存儲數據。爲了克服API調用限制,我使用Apigee代理,因此現在沒有速率限制的問題。
的呼籲得到兩個的UID之間的關係狀態是:https://dev.twitter.com/docs/api/1/get/friendships/show
我需要加快收集數據的過程。目前我有很多腳本在我的終端中同時運行。我發現這種方法很難管理和擴展。有沒有更快,更高效和更易於管理的方法來做同樣的事情?或者我缺少一種完全不同的,更好的方法嗎?
如果1個回答沒有幫助,考慮添加關於爲什麼你認爲它是太長的信息。如果您有一堆運行simul的腳本,則作業控制工具或主腳本可能是合適的。鑑於您的項目的網絡編程方面,我本以爲會有紅寶石來幫助解決這個問題。你在這方面的表現有多深。縮放可能意味着您需要查看GNU並行,Amazon Elastic Cloud或其他。此外,像Hadoop這樣的大規模數據處理工具(幾乎可以肯定需要在java或??中進行自定義編碼)。祝你好運。 – shellter 2012-02-24 22:18:40
從查看你包含的dev.twitter鏈接,json文檔,看起來已經成熟,可以加載到MongoDB中。 (這來自MongoDB in Action第4章(曼寧出版社,從屬關係)的一個人。)。本書包含一個從twitter直接向數據庫檢索數據的示例。所以可能值得一看。祝你好運。 – shellter 2012-02-24 22:24:08
作業控制工具或主腳本是我正在看的。對於這些的任何建議?編程語言的改變也會導致速度的顯着提高嗎? – s2n 2012-02-25 14:13:20