1
我想用Spark的LinearRegressionWithSGD來預測國家&設備的價格。在查看Spark MLLib的feature extraction section之後,我有點不清楚應該如何散列這些特性。一個例子紀錄是:(前murmur哈希)火花線性迴歸特徵哈希
{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}
我試過幾個散列技術,但他們似乎都被垃圾權重(如NaN,PositiveInfinity時等)或重量朝向10的趨勢^ 200+。 Spark MLLib中是否有任何成功哈希標記的功能?
爲什麼和你需要做什麼散列? –
看起來你需要的是比哈希更熱的東西。 – zero323