我有記錄(行)在數據庫中,我想識別相似的記錄。我有一個使用餘弦相似性的約束。如果變量(屬性,列)的類型而有所不同,並提出以這種形式:如何計算多類型數據的餘弦相似度?
[number] [number] [boolean] [20 words string]
我如何可以繼續申請餘弦相似性的量化?對於字符串我可以採取簡單的tf-idf。但是對於數字和布爾值?這又如何結合?我的想法是矢量長度爲1 + 1 + 1 + 20。但是在語義上,只是將記錄的數字轉換爲我的向量中的係數,並將它們與字符串的tf-idf連接以計算餘弦相似度,這在語義上「高效」或者,我可以將數字視爲單詞並將tf-idf應用於數字。還有另一種技術嗎?