回答

2
  1. 如果你有一個數據集的標記,你可以同時使用。如果你沒有標籤,你只能使用無監督學習。

  2. 這不是「更好」的問題。這是你想達到什麼的問題。例如。羣集數據通常是無人監督的 - 您希望算法告訴您數據的結構。分類是監督的,因爲你需要教你的算法是什麼,以便對未見的數據進行預測。

  3. 請1.

在一個側面說明:這些都是很廣泛的問題。我建議你熟悉一些ML基金會。

例如這裏良好的播客:http://ocdevel.com/podcasts/machine-learning

非常好的書/筆記本電腦由Jake VanderPlas:http://nbviewer.jupyter.org/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb

1

取決於你的需要。如果您有一組現有數據,包括您希望預測的目標值(標籤),那麼您可能需要supervised learning(例如,某些值是真或假;或者這些數據是否代表魚或貓或狗?簡單地說 - 你已經有正確的答案的例子,你只是告訴算法預測什麼)。您還需要區分是否需要分類迴歸。分類就是當你需要將預測值分類到給定的類別時(例如,這個人可能是否患有糖尿病 - 是或否?換句話說 - 離散值),迴歸是當你需要預測連續值時,4.56,12.99,23等)。有許多監督學習算法可供選擇(k-最近鄰居,樸素貝葉斯,SVN,脊..)

相反 - 如果您沒有標籤(或目標值),請使用unsupervised learning。你只是試圖確定數據集羣。例如。的K-means,DBSCAN,譜聚類..)

所以它依賴,而且也沒有確切的答案,但一般來說,你需要:

  1. 收集,看看你的數據。您需要知道您的數據,然後才能決定選擇哪種方式或哪種算法最適合您的需求。

  2. 訓練你的算法。確保有一個乾淨和良好的數據,並記住,在無監督學習的情況下,你可以跳過這一步,因爲你沒有目標值。你馬上測試你的算法

  3. 測試你的算法。運行並查看算法的表現如何。在監督式學習的情況下,您可以使用一些訓練數據來評估算法的效果。

在線上有很多關於機器學習的書籍和許多關於該主題的在線講座。