2016-07-14 47 views
0

我在我的代碼,它看起來像這樣已經計算的兩張dictionaries計算從類型的字典(sklearn)歐氏距離

X = {'a': 10, 'b': 3, 'c': 5, ...} 
Y = {'a': 8, 'c': 3, 'e': 8, ...} 

其實它們包含來自維基文本的話,但這應該足以說明我的意思。它們不一定包含相同的密鑰。

起初我想用sklearn的成對指標如下:

from sklearn.metrics.pairwise import pairwise_distances 

obama = wiki[wiki['name'] == 'Barack Obama']['tf_idf'][0] 
biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0] 

obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0] 

然而,這給出了一個錯誤:

-------------------------------------------------------------------------- 
AttributeError       Traceback (most recent call last) 
<ipython-input-124-7ff03bd40683> in <module>() 
     6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0] 
     7 
----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0] 

/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds) 
    1205   func = partial(distance.cdist, metric=metric, **kwds) 
    1206 
-> 1207  return _parallel_pairwise(X, Y, func, n_jobs, **kwds) 
    1208 
    1209 

/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds) 
    1058  ret = Parallel(n_jobs=n_jobs, verbose=0)(
    1059   fd(X, Y[s], **kwds) 
-> 1060   for s in gen_even_slices(Y.shape[0], n_jobs)) 
    1061 
    1062  return np.hstack(ret) 

AttributeError: 'dict' object has no attribute 'shape' 

對我來說這倒像是東西正試圖訪問shape屬性,其中dict沒有。我想它需要numpy陣列。如何轉換字典,以便sklearn函數能夠計算正確的距離,假設0值,如果字典沒有某個鍵,而另一個字典有?

回答

3

你爲什麼不直接從你的稀疏表示做到這一點?

In [1]: import math 

In [2]: Y = {'a': 8, 'c':3,'e':8} 

In [3]: X = {'a':10, 'b':3, 'c':5} 

In [4]: math.sqrt(sum((X.get(d,0) - Y.get(d,0))**2 for d in set(X) | set(Y))) 
Out[4]: 9.0 
+0

有超過50萬個數據點,我想讓sklearn做繁重。同樣在每個陣列中,對於不存在的鍵都需要零,否則歐幾里得距離是錯誤的。 – Zelphir

+0

@Zelphir哎呀!你是對的。嗯,使用餘弦距離?嘿。但實際上,您仍然可以修改它,以便通過使用具有默認值的「get」方法進行工作。 –

+0

@Zelphir隨着設置工會,而不是交集。我以前使用過大量詞彙表和大量文檔的語料庫,而且速度相當快。 –

0

好像你想要使用X.get(search_string,0),如果沒有找到,它會輸出值或0。如果你有很多搜索字符串,你可以做[X.get(s,0) for s in list_of_strings],它會推送一個輸出列表。

2

你可以用你的字典的所有鍵創建列表開始(需要注意的是該名單進行排序很重要):

X = {'a': 10, 'b': 3, 'c': 5} 
Y = {'a': 8, 'c': 3, 'e': 8} 
data = [X, Y] 
words = sorted(list(reduce(set.union, map(set, data)))) 

這工作在Python 2罰款,但如果你正在使用Python 3,您需要添加句子from functools import reduce(感謝@Zelphir發現此問題)。如果你不希望導入functools模塊,您可以通過下面的代碼替換上面的代碼片段的最後一行:

words = set(data[0]) 
for d in data[1:]: 
    words = words | set(d) 
words = sorted(list(words)) 

不管它是你選擇的方法,該列表words能夠SET-建立一個矩陣,其中每一行對應一個字典(樣本),並將這些字典(特徵)的值放置在與其關鍵字對應的列中。

feats = zip(*[[d.get(w, 0) for d in data] for w in words]) 

這個矩陣可以傳遞給scikit的功能pairwise_distance

from sklearn.metrics.pairwise import pairwise_distances as pd 
dist = pd(feats, metric='euclidean') 

以下交互式會話說明了它是如何工作的:

In [227]: words 
Out[227]: ['a', 'b', 'c', 'e'] 

In [228]: feats 
Out[228]: [(10, 3, 5, 0), (8, 0, 3, 8)] 

In [229]: dist 
Out[229]: 
array([[ 0., 9.], 
     [ 9., 0.]]) 

最後,你可以換上面的代碼爲函數來計算任意數量字典的成對距離:

def my_func(data, metric='euclidean'): 
    words = set(data[0]) 
    for d in data[1:]: 
     words = words | set(d) 
    words = sorted(list(words)) 
    feats = zip(*[[d.get(w, 0) for d in data] for w in words]) 
    return pd(feats, metric=metric) 

我已經避免了對reduce的調用,以便包裝在各個版本上工作。

演示:

In [237]: W = {'w': 1} 

In [238]: Z = {'z': 1} 

In [239]: my_func((X, Y, W, Z), 'cityblock') 
Out[239]: 
array([[ 0., 15., 19., 19.], 
     [ 15., 0., 20., 20.], 
     [ 19., 20., 0., 2.], 
     [ 19., 20., 2., 0.]]) 
+0

另外應該注意的是'reduce'需要從'functools'中導入。 – Zelphir

+0

應該注意'reduce'需要從'functools'中導入。 早些時候,我忘了重命名函數,並意外地跑了另一個函數兩次,這導致我相信你的答案中的函數對我的作用與接受答案中的另一個相同。但是,當我更改名稱並再次嘗試時遇到了一些問題,並且無法讓您的函數運行:/也許我在某處犯了一個錯誤。 – Zelphir

+0

爲什麼你認爲'reduce()'需要從'functools'中導入?我的代碼中唯一的import語句是'from sklearn.metrics.pairwise import pairwise_distances as pd'(順便說一下,在你提到的問題中,你希望用它來計算成對距離)。其他函數可以是內置函數,即reduce(),map(),list(),set(),zip()和sorted()在類的方法,如'set.union()'和'dict.get()'。看看https://docs.python.org/2/library/functions.html#reduce來說服自己... – Tonechas