2014-01-05 85 views
2

所以我目前正在收集有關的特定位置的鳴叫,然後分析哪些是從收集到的鳴叫位置回事。我的任務基本上涉及大量的數據挖掘。收集大量推文的最佳方式是什麼?

主要的問題我也碰到過不過是收集足夠的鳴叫,讓我做出判斷。

我一直在使用Twitter的流API,然而,這只是給所有的鳴叫的1%,這是遠遠不夠的。我挖掘了10萬條推文,英文很少,更不用說與我正在尋找的位置有關。

我也注意到,Twitter的速率限制頻率也有通過他們的API調用的方法。像trendmap.com這樣的網站如何運作?他們以某種方式訪問​​更大的數據集?

編輯:好的,所以我試圖在twiiter4j API中使用地理定位功能。如果你對你的實現小心的話,可以避免使用率限制。但是,當推文非常低時,實際上具有地理位置功能的人數會開啓。因此,這並不代表該地區的人。我似乎每次都得到相同的推文。 Twitter確實提供了一個「近」搜索運營商,這在他們的網站上非常出色。但是,據我所知,他們沒有在他們的API中包含這個功能。

回答

2

如果您是searching using the Twitter API,則可以使用geocode選項將搜索限制爲特定的地理位置。

您可以使用result_type=recent,以確保您只得到最近的鳴叫。

最大count - 也就是說,每個請求鳴叫的數量 - 爲100

search requests per hour數量電流限值450

所以,這是一個最大的每小時45000個微博 - 是這對你來說足夠了嗎?

TL:博士 - 使用最嚴格的一組搜索參數限制結果到那些你真正需要。

+0

感謝您的回覆。我已經嘗試過你說過的話,但每次只能看到少量的推文。這很可能是因爲我所搜索的地區大多數人沒有打開地理定位。 – illwalkwithyou

+0

這是設計。如果人們想保留他們的位置私密,你無法找到它。 –

+0

應該嘗試自己刮,希望我可以使用近搜索運算符來收集推文。 – illwalkwithyou

相關問題