2013-04-22 24 views
1

我不知道如果我是在正確的地方問問題,因爲我是新的stackoverflow,請移動如果需要。如何找到大量功能的相似性

我正試圖解決Flickr數據集的鏈接預測問題。我的數據集有5K個節點,每個節點有大約27K個特徵,它很稀疏。

我想找到節點之間的相似性,以便我可以預測它們之間的鏈接,如果相似度值大於我決定的某個閾值。問題在於功能的數量。我無法加載Weka中的文件(嘗試通過某些信息增益或某事來減少功能,然後嘗試羣集或檢查餘弦相似性度量)

還有一個問題是,如何將此定義爲分類問題?我想爲兩個節點找到重疊的標籤,所以表中包含節點和它們的一些特徵(將有成千上萬個),並且它們都將是正類,因爲我知道它們之間存在鏈接。

我想用一些節點創建一個測試數據集並創建類似的表並將它們標記爲正類或負類。但我的問題是我擁有的所有數據都是正面的,所以我認爲它永遠不會被標記爲負面。如何正確地將其更改爲分類問題?

任何指針或幫助非常感謝。

回答

0

Weka可以處理27K的特徵,它不應該成爲一個問題......但是,我將這個問題作爲分類問題來處理,但是鏈接發現之一,在這種情況下可以看作是一個匹配問題。

我的做法是:1。 新節點出現 2.搜索最相似的元素 3.認爲它們是相關(有鏈接)如果相似度比你的閾值。

主要問題是根據某種質量度量調整閾值。

對於這種方法,Lucene可能是最好的選擇。

我希望這會有所幫助。

+0

我無法在Weka中加載文件本身。所有屬性的值都是數字。有5K記錄。文件大小約爲250MB。我不確定我在這裏錯過了什麼嗎? – TechCrunch 2013-04-22 14:53:13

+0

非常感謝您的回覆。我無法在Weka中加載文件本身。所有屬性的值都是數字。有5K記錄。文件大小約爲250MB。我不確定我是否錯過了一些東西?你提到的方法與我的相似嗎?我無法知道如何將此定義爲分類問題,例如訓練數據集包含什麼內容?每行將有一對節點(4K×4K)及其功能(或減少的功能),並將被分類爲是或否?在訓練集中,我已經知道全部被分類爲「是」。那麼,它會分類NO嗎? – TechCrunch 2013-04-22 14:58:45

+0

關於Weka,你能否提供關於你得到的錯誤的更多信息(如果你有的話)? 你有什麼理由不得不將這個任務作爲分類問題來解決嗎?因爲我認爲它不適合它,你有更好的選擇。 – miguelmalvarez 2013-04-22 15:47:16