2014-02-18 59 views
0

我正在尋找指引,指導我在構建算法的正確方向。基於多位信息確定最可能的地理位置的算法

情況很簡單:有很多信息可能表明個人的地理位置。例如,最近的IP地址或電子郵件地址的TLD或明確提供的信息,例如城鎮或郵政編碼。

這些信息位可能存在也可能不存在,它們可能具有一定的準確性(郵政編碼比國家TLD更準確)和可靠性(IP可能比郵政編碼更可靠,即使郵政編碼會更準確)。此外,信息可能會受到老化。

我正在創建一個算法,試圖根據這些信息確定最可能的位置。關於如何解決這個問題,我已經有了一些想法,主要涉及預先確定和計算準確性和可靠性的分數,但是很容易在這個問題上發現漏洞。

處理這個特定或類似問題的任何算法?也許算法處理數據可靠性/精度的一般或實際統計數據的可靠性/準確性的地理信息?

回答

2

你想找到最有可能的位置L,給出一些信息片I。也就是說,你想最大化的條件概率

P(L|I) -> max 

因爲這個功能P(L|I)很難估計,一個典型的在這裏適用Bayes' theorem

P(L|I) = P(I|L)*P(L)/P(I) 

分母P(I)是信息I的概率。由於該信息是固定的,因此這個術語是恆定的,並且對於找到上述最大值不感興趣。 P(L)是某個位置的無條件概率。像這個地方的人口密度可能是一個很好的估計。最後,您需要一個P(I|L)的模型,獲得I給定位置L的概率。對於多條信息,這將是個人概率的乘積:

P(I|L) = P(I1|L)*P(I2|L)*... 

這適用於單件I1I2 ...被conditionally independent給出的位置L,這似乎是這裏的情況。舉例來說,某些郵政編碼的可能性和某些小區塔的可能性通常強相關,但只要我們假設具體位置L郵政編碼不再影響小區塔的可能性。

那些個體概率P(I1|L) ...代表信息的可靠性和準確性,必須在外部提供。你必須在這裏提出一些假設。作爲一般規則,如果懷疑您最好對信息的可靠性和準確性持悲觀態度。 如果你太悲觀,你的結果會有些偏離,但是如果你太樂觀,你的結果會很快得到完全錯誤。你需要牢記的另一件事是最大化的可行性。 P(I1|L)的非常準確的模型是無用的,如果努力找到最大值變得太高。通常爲模型選擇平滑功能最終簡化了優化。