公司1有這個載體:假設我有2個向量。我可以使用哪些算法來比較它們?
['books','video','photography','food','toothpaste','burgers'] ... ...
公司2有這個載體:
['video','processor','photography','LCD','power supply', 'books'] ... ...
假設這是一個頻率分佈(我可以讓它變成一個元組,但太多的類型)。
正如你可以看到... ...這些向量有東西重疊。由於它們處於相似的位置,「視頻」和「攝影」似乎在兩個媒介之間是「相似的」。而且......「書」顯然是公司1 訂購和定位支撐點的確很重要,因爲這是一個頻率分佈。
,你可以用什麼算法來玩弄呢?你可以使用哪些算法爲這些公司提供有價值的數據,使用這些載體?
我是新來的文本挖掘和信息檢索。有人可以指導我討論與這個問題有關的話題嗎?
是什麼順序與頻率分佈呢?書籍的頻率可能比食物低。但是你沒有告訴我們分配,你只是寫了可能的'事件'。 –