火花線性迴歸特徵哈希

我想用Spark的LinearRegressionWithSGD來預測國家&設備的價格。在查看Spark MLLib的feature extraction section之後，我有點不清楚應該如何散列這些特性。一個例子紀錄是：（前murmur哈希）火花線性迴歸特徵哈希

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我試過幾個散列技術，但他們似乎都被垃圾權重（如NaN，PositiveInfinity時等）或重量朝向10的趨勢^ 200+。 Spark MLLib中是否有任何成功哈希標記的功能？

2016-03-01 Steve

爲什麼和你需要做什麼散列？ –

看起來你需要的是比哈希更熱的東西。 – zero323

對該國進行散列可能會混淆無關的觀察結果。您可以在設備上使用simhash，並在國家/地區 - 上進行精確比較（不區分大小寫）。橫跨兩者的散列方法變量可能適用於集羣，但不可能進行迴歸。

爲每個國家創建單獨的曲線，並且您可能會將simhash應用於移動設備。

2016-03-04 16:42:55 javadba

回答