2014-03-03 24 views
-2

我有一個包含在LIBSVM格式數據的文本文件即它是如下如何在LIBSVM格式的數據上實現KNN?

165475 0:246870 1124384:2 342593:7 1141651:1 297582:1 1186846:1 17725:1 656602:1 463304:1 766612:1 573309:1 290046:1 748198:1 216665:1 950594:2 909004:1 29008:1 105623:1 5018:5 806027:1 1125729:1 757846:1 1023921:2 612980:1 120767:1 51340:1 108172:5 674420:2 

其中第一項(165475)表示數據集隨後是特徵矢量的標籤:重量。該文件包含很多這樣的樣本。

我的問題是提供這些樣本正在使用的文本分類問題的上下文中,如果我要寫這個我自己的代碼爲k最近的鄰居,我該如何測量兩個樣本之間的距離?每個特徵的權重是否有助於距離?

我目前正在使用Python,但只要我能理解邏輯,我就可以用任何語言打開代碼。 任何幫助將不勝感激。提前感謝!

回答

0

每一對的形式是index:value。這爲每個實體提供了一個非常簡單的向量。權重(即,value)只是該向量在對應維度(即index)中投影的幅度。