2016-09-14 56 views
0

我正在收集關於當前正在發生的特定事件的某些API(Live Streaming API)的數據(文本)。我收到的數據基於我傳遞給API的默認關鍵字列表。 API還收集除我的默認關鍵字以外的文本中出現的關鍵字,然後將它們添加到我的默認列表中,以便API可以使用這些關鍵字搜索數據。這就是問題發生的地方,因爲其中一些新增的關鍵字與事件無關。我不想限制僅在我的默認列表中搜索數據,因爲我無法覆蓋文本中使用的所有關鍵字。如何找到數據之間的相關性和關係

我到目前爲止的解決方案是嘗試做點對雙列相關係數爲每1000個接收到的數據,但我不知道如果這是正確的方法,以及如何做到這一點。

我真的很感激,如果有人可以給我一個建議或任何解決方案如何解決這個問題?

回答

2

您可以使用術語共發事件處理關鍵字集合,應該提供與默認列表更好的相關性。 This是一個例子,但您可以顯着改進算法。

+0

非常感謝,這就是我一直在尋找的! –