2017-09-01 58 views
0

[編者注:請移動這個問題到交叉驗證的社區]有沒有可以用成對的整數集訓練的機器學習算法?

一樣,訓練集由正例 (S1,S2),其中S1是一個整數集和s2另一個整數組。 s1和s2可能有不同的基數。負例子類似:整數集合的對(s3,s4)。

+0

人類如何區分正面和負面的例子? – Andnp

+0

正面示例將從數據集中提取。 – ligand

+0

在正面示例的數據集中,可以通過一些隨機化來構造否定示例,從而避免產生任何正面示例。 – ligand

回答

1

似乎主要的問題是實際從輸入數據中提取特徵。一旦你將你的對集合作爲向量進行編碼,你幾乎可以使用任何你想要的算法。

最明顯的方法是使用整數作爲單詞的Bag of Words方法(具體來說,分別編碼兩個集合然後連接它們的項頻率矩陣似乎是合適的)。

當然,你必須接受你在開始時給出可能的整數範圍,或者某些整數不被編碼。

如果你想要一些練習BoW模型,我建議嘗試this hackerrank problem。例如,你可以使用scikit學習解決它 - 它的文檔包含Working With Text Data的教程。

+0

是否可以使用SVM來執行相同的任務?就像svm_train(s1,s2,Good)和svm_train(s1,s3,Bad) – ligand

+0

我所描述的技術只提取特徵。您可以在提取的數據集上運行機器學習算法。 –

+0

我在問一個算法;而不是提取特徵。因爲我懷疑大多數機器學習算法在一個稀疏且很長的向量上運行良好。這就是爲什麼我要求可以直接使用整數集的算法。 – ligand

相關問題