2013-05-07 88 views
2

我最近掀起了一個script從Twitter的流媒體API捕獲大量geo data。我正在尋找一些方法來創建一個模型來表示世界上任何給定經緯度點的地理「活動」,並將這些數據用作訓練輸入。地理數據的曲線擬合

我正在考慮將所有lat \ lng的四捨五入取整到小數點後兩位,並創建一個所有位置出現的2-d直方圖。因此,用於訓練我的模型的輸入是:

x = lat - input 
y = lng - input 
z = location weight - observed output [normalized between 0.0 and 1.0] 

我想創建24種型號(1每小時)的事實,社交網絡活動是依賴於一天中的時間進行建模。這也將簡化爲3-d而不是4-d。

問題:

  • 什麼是曲線擬合上述問題的最好方法是什麼?
  • 是否有一個現有的庫,我可以使用輸入x,y,z並吐出一個最佳擬合 迴歸方程?我熟悉Ruby,Python,Java或Scala。 示例代碼將不勝感激。
+0

我很困惑。你的自變量是什麼? – Gian 2013-05-07 04:50:59

+1

您提出的許多方面都與[Twitter中的事件檢測]有關(http://scholar.google.com/scholar?hl=zh-CN&q=event+detection+in+twitter&btnG=&as_sdt=1%2C44&as_sdtp=)(請參閱Google學術搜索);我敢打賭,你將最終建立世界人口密度的模型(見[你在哪裏你](圖1)(http://infolab.cse.tamu.edu/static/papers/cikm1184c-cheng.pdf )),所以再次,您可能想要查看事件檢測或其他用途來做一些更有趣的事情。 (P.S.,我最近做了一些Twitter [位置相關的工作](https://github.com/bwbaugh/inferhotspot)) – 2013-05-07 04:59:15

+0

@Gian'lat'和'lng'是產生'重量'的獨立變量。 f(lat,lng)=重量 – PhilYoussef 2013-05-07 05:37:55

回答

1

K-Means clustering算法在這裏可能會有所幫助。在給定所有推文的lat和lng的情況下,它可以用來計算推文集羣的位置。

+1

這是如何回答OP的問題?羣集將點指派給一個羣集。 OP正在嘗試做某種形式的與某個地理區域中推文的*號相關的迴歸。也許我錯過了一個明顯的聯繫。 – 2013-05-07 21:04:14

+0

(雖然我確實認爲集羣可能在整體解決方案中起作用,但是,集羣在這裏看起來還不夠。) – 2013-05-07 21:09:30

0

這是我會採取的方法。你應該建立一個迴歸模型,至少有以下預測因子:緯度,經度,(lat,long)的人口密度,時間(可能是分類)以及任何其他相關特徵。你對某種程度的活動退步了。

我可以幫助你,直到python庫去:如果你想建立一個標準的線性模型(可能不是,但你可以用它作爲一個起點),statsmodels是一個很好的開始。您至少可以在一些測試數據上獲得MSE。

鑑於模型可能會很複雜並且會有很多交互作用,您可能需要將其與諸如神經網絡迴歸模型之類的東西進行比較---如果是的話,pybrain非常容易設置爲執行此類操作的東西。