2012-05-25 65 views
3

如何檢查來自兩個不同社交媒體網站的兩個資料是否相同? 有什麼算法可以實現這一點,從而爲匹配分配權重測量值?匹配兩個社交媒體資料

假設我有LinkedIn的個人資料和Facebook的其他個人資料。我知道這兩個配置文件的屬性。我可以使用什麼算法來查找這兩個配置文件之間的匹配距離。

感謝 阿布舍克小號

回答

6

你可以試試machine learning算法,具體分類

爲簡單起見,我們假設你想有一個二進制的答案:是或否(可在以後改進)。

你要做的:

  1. 提取從兩個翼型具有的特點和兩個聯合剖面創建 單個實例。這將是一個實例 需要分類
  2. 創建一個訓練集。訓練集是您知道分類的一組「實例」(通常通過手動標記)。
  3. 運行一個分類算法,給定訓練集 - 它將「猜測」未分類實例的分類,您將在後面得到。

你可能想使用一些算法是:

  1. SVM - 這被認爲是由許多最好的分類算法存在的今天。
  2. Decision Trees - 特別是C4.5 - 非常直觀的分類器(人類可讀!),使用簡單,分類時間也很短。
  3. K Nearest Neighbor - 直觀且易於使用,但在功能數量很大時表現不佳。

    • 您還可以使用cross validation來評估您的結果有多好。
    • 對於java - 有一個名爲Weka的開源項目,它實現了這些分類算法等等。