有沒有難以及快速的答案,因爲這裏的答案很大程度上取決於您的輸入和問題域。機器學習的很多工作都是準備你的輸入的藝術(而不是科學),出於這個原因。我可以給你一些一般想法來思考。你有兩個問題:從每個項目中做出有意義的相似性,然後將它們合併。
這個城市的相似度聽起來很合理,但實際上取決於你的域名。在同一個城市中是否意味着一切,而在鄰近城市中意味着什麼呢?例如,在同樣規模的城市中是否可以算作任何東西?在相同的狀態?如果他們做你的相似性應該反映。
教育:我理解你爲什麼會使用餘弦相似度,但這不會解決真正的問題,這是處理不同的令牌,意味着同樣的事情。你需要「eng」和「engineering」匹配,「ba」和「bachelors」等類似的東西。一旦你準備這些令牌,它可能會給出好的結果。興趣:我不認爲餘弦在這裏是最好的選擇,嘗試一個簡單的tanimoto係數相似性(只是交叉大小的交集)。
你不能總結它們,因爲我假設你仍然想要一個範圍[0,1]的值。你可以平均他們。這就使得這些假設都可以直接比較,如果你願意的話,它們是相同的「單位」。他們不在這裏;例如它不像是概率。
它可能仍然可以在實踐中確定它們的平均值,或許還有權值。例如,在這裏同一座城市與擁有完全相同的利益一樣重要。這是真的還是應該不那麼重要?
你可以嘗試和測試不同的變化和權重,希望你有一些測試歷史數據的方案。我會向您指出我們的項目Mahout,因爲它有推薦和評估的完整框架。
然而,所有這些解決方案都是拙劣的和啓發式的。我想你可能想要採用更正式的方法來進行特徵編碼和相似之處。如果你願意購買一本書並且喜歡Mahout,Mahout in Action在關於如何選擇和編碼特徵的聚類章節中有很好的覆蓋面,然後如何在它們之間做出一個相似性。
有很多方法,你到目前爲止閱讀過很多文獻嗎? –