0
某些代碼未按預期工作。它看起來比HashingTF函數對字符串完全相同的字符返回相同的散列值,而不管字的順序如何。有人可以確認嗎?Pyspark -HashingTF治療「蛋罐」和「可以蛋」一樣嗎?
hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(),
outputCol="features")
某些代碼未按預期工作。它看起來比HashingTF函數對字符串完全相同的字符返回相同的散列值,而不管字的順序如何。有人可以確認嗎?Pyspark -HashingTF治療「蛋罐」和「可以蛋」一樣嗎?
hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(),
outputCol="features")
是的。 HashingTF將輸入視爲一個「包的單詞」(與單詞順序無關)。如果「行李」相同,則會得到相同的散列。