我在我的代碼,它看起來像這樣已經計算的兩張dictionaries
:計算從類型的字典(sklearn)歐氏距離
X = {'a': 10, 'b': 3, 'c': 5, ...}
Y = {'a': 8, 'c': 3, 'e': 8, ...}
其實它們包含來自維基文本的話,但這應該足以說明我的意思。它們不一定包含相同的密鑰。
起初我想用sklearn
的成對指標如下:
from sklearn.metrics.pairwise import pairwise_distances
obama = wiki[wiki['name'] == 'Barack Obama']['tf_idf'][0]
biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
然而,這給出了一個錯誤:
--------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-124-7ff03bd40683> in <module>()
6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
7
----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds)
1205 func = partial(distance.cdist, metric=metric, **kwds)
1206
-> 1207 return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1208
1209
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1058 ret = Parallel(n_jobs=n_jobs, verbose=0)(
1059 fd(X, Y[s], **kwds)
-> 1060 for s in gen_even_slices(Y.shape[0], n_jobs))
1061
1062 return np.hstack(ret)
AttributeError: 'dict' object has no attribute 'shape'
對我來說這倒像是東西正試圖訪問shape
屬性,其中dict
沒有。我想它需要numpy
陣列。如何轉換字典,以便sklearn
函數能夠計算正確的距離,假設0
值,如果字典沒有某個鍵,而另一個字典有?
有超過50萬個數據點,我想讓sklearn做繁重。同樣在每個陣列中,對於不存在的鍵都需要零,否則歐幾里得距離是錯誤的。 – Zelphir
@Zelphir哎呀!你是對的。嗯,使用餘弦距離?嘿。但實際上,您仍然可以修改它,以便通過使用具有默認值的「get」方法進行工作。 –
@Zelphir隨着設置工會,而不是交集。我以前使用過大量詞彙表和大量文檔的語料庫,而且速度相當快。 –