cosine-similarity

    1熱度

    1回答

    我想找到用戶標籤的語義/相似性。 每個用戶最多可以使用4個標籤。例如,用戶1 [「機器學習」,「攝影」,「數據科學」,「神經網絡」],用戶2 [「機器學習」,「數據科學」,「統計學」,「數學」 User-2 [「地球物理學」,「機器學習」,「藝術與印刷」,「數學」]。 標籤來自廣泛的技能。我想找到標籤之間的距離/相似度。例如:「機器學習」,「數據科學」和「神經網絡」將彼此接近,類似地,「攝影」和「

    -1熱度

    1回答

    我在R中非常新。我有一個包含139列和46.5k行以上的數據集。我測量了數據集中行之間的成對餘弦相似性矩陣,其中一行將與其他行的其餘行進行比較,並且在下一次迭代期間將被排除,並且該過程將繼續進行數據集的其餘部分。這種實現在小樣本數據集例如有500行。但是,當我嘗試使用整個數據集(46k)做到這一點時,它變得討厭(我已經等待了將近30小時運行代碼但沒有輸出)。這是我迄今爲止的實現: library(

    2熱度

    1回答

    我使用隨機超平面讀取了有關最近鄰居搜索的幾個解決方案,但我仍然對這個桶如何工作感到困惑。我有100百萬個文件,形式爲100維向量和100萬個查詢。對於每個查詢,我需要根據餘弦相似性找到最近的鄰居。蠻力的方法是找到cosine查詢的全部1億個文檔的值,並選擇值接近1的那些。我正在努力使用隨機超平面的概念,在那裏我可以把文檔放在桶中,這樣我就不會必須爲每個查詢計算cosine值1億次。

    -2熱度

    2回答

    我得到了約1600個文檔x〜120個字的文檔項矩陣。我想計算所有這些向量之間的餘弦相似度,但我們正在談論約1,300,000個比較[n *(n-1)/ 2]。 我用parallel :: mclapply與8但它仍然需要永遠。 你建議哪種解決方案? 謝謝

    0熱度

    1回答

    所以我知道有幾種方法可以找到文檔語料庫中最相似或最相似的三個文檔。我知道可能會出現擴展問題,現在我有大約一萬個文檔,並且已經在大約三十個子集上運行測試。這是我現在得到的,但正在考慮研究elasticsearch或doc2vec,如果這證明是不可能的或低效的。 到目前爲止,腳本工作得非常好,他們使用spaCy標記文本和Sklearn TfidfVectorizer以適應所有文檔,並找到非常相似的文檔

    0熱度

    3回答

    我有一個數據幀df: AID VID FID APerc VPerc 1 A X 0.2 0.5 1 A Z 0.1 0.3 1 A Y 0.4 0.9 2 A X 0.2 0.3 2 A Z 0.9 0.1 1 B Z 0.1 0.2 1 B Y 0.8 0.3 1 B W 0.5 0.4 1 B X 0.6

    0熱度

    1回答

    tl; dr 如何使用pySpark比較行的相似性? 我有一個numpy的陣列,我想每一行的相似之處彼此比較 print (pdArray) #[[ 0. 1. 0. ..., 0. 0. 0.] # [ 0. 0. 3. ..., 0. 0. 0.] # [ 0. 0. 0. ..., 0. 0. 7.] # ..., # [ 5. 0. 0. ..., 0. 1. 0.] # [

    0熱度

    1回答

    餘弦相似度是根據對問題的回答決定2個用戶是否相似的好方法嗎? 我試圖讓用戶回答10個問題並解決對整數的10維向量的響應。然後,我計劃使用餘弦相似度來查找類似的用戶。 我考慮將每個問題解決爲一個整數並對整數進行求和以將每個用戶解析爲一個整數,但是這種方法的問題在於相似性度量不是問題特定的:換句話說,如果用戶給出問題1的答案解決爲5,問題2的答案解決爲0,另一個用戶回答問題1 0和問題2 5,兩個用戶

    1熱度

    1回答

    我試圖將2個數據幀與應用函數結合到2個數據幀相同位置的值。 2個數據幀中的每個元素是列表類型,表示項目[col,row]的向量。 df1 : A B 0 vec1 vec2 1 vec1 vec2 2 vec1 vec2 df2 : A B 0 vec5 vec5 1 vec6 vec6 2 vec7 vec7 function : ge

    0熱度

    2回答

    如何找到某個特定行與數據框中其餘行之間的最佳相似性? 我試着解釋我的意思。看看這個數據幀: df <- structure(list(person = 1:5, var1 = c(1L, 5L, 2L, 2L, 5L), var2 = c(4L, 4L, 3L, 2L, 2L), var3 = c(5L, 4L, 4L, 3L, 1L)), .Names = c("person", "var1