1

我想用Spark的LinearRegressionWithSGD來預測國家&設備的價格。在查看Spark MLLib的feature extraction section之後,我有點不清楚應該如何散列這些特性。一個例子紀錄是:(前murmur哈希)火花線性迴歸特徵哈希

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"} 

我試過幾個散列技術,但他們似乎都被垃圾權重(如NaN,PositiveInfinity時等)或重量朝向10的趨勢^ 200+。 Spark MLLib中是否有任何成功哈希標記的功能?

+2

爲什麼和你需要做什麼散列? –

+0

看起來你需要的是比哈希更熱的東西。 – zero323

回答

0

對該國進行散列可能會混淆無關的觀察結果。您可以在設備上使用simhash,並在國家/地區 - 上進行精確比較(不區分大小寫)。橫跨兩者的散列方法變量可能適用於集羣,但不可能進行迴歸。

爲每個國家創建單獨的曲線,並且您可能會將simhash應用於移動設備。