我手頭有一個問題陳述,我需要知道它是否可以通過機器學習來解決。它是這樣的: -帶動態類集的多標籤分類的侷限性
我在其中一個用戶可以上傳文件,所以讓我們說我們有一個名爲 xxxZxxx.xxx
用戶進入多層次到系統的文件夾結構,並將該文件系統文件,(比如說) A/B/C/d/Z/xxxZxxx.xxx
我們需要一個系統,讀取文件名並建議 路徑它在哪裏放置。
在這種情況下,文件名包含路徑的最後一部分,這是一個Business Object目錄,但它可能不包含。我們有10^5的路徑和文件。
和新路徑,即可以隨着時間增值業務對象,這使它成爲一個多類分類與大約10^5類,不斷提高
這是可以解決的?
我嘗試使用一袋字符(靈感來自單詞袋)作爲失敗的特徵向量。
對此可以遵循的任何方法有何評論?讓我知道是否需要其他信息我將編輯問題或更改標籤。
嗨,我已經通過你提到的選項。用戶可能會或可能不會將文件名稱作爲子文件夾,儘管它只有一個。這不是一個可以使用reg-ex的問題。我們正試圖在人們的命名規則中找到一種模式,如果這樣做更清楚的話。 – divyenduz 2014-09-05 12:46:05
所以你說用戶可能會提供一個可能與已經存在的目錄相匹配的名稱,或者它可能是一個完全不同的名稱。而且你不知道用戶命名約定,因此你不知道要尋找什麼樣的模式。 如果以上是真的,你想把它變成ML問題,那麼它必須是一個監督學習。你有以前的用戶數據在哪裏你已經知道什麼用戶給文件名corressponds什麼目錄結構?如果有,那麼我們可以進一步考慮把這個問題作爲一個ML問題,否則所有的希望都會丟失,我認爲它是一個ML問題。 – 2014-09-05 18:54:06
爲什麼很難把它當成一個無監督的學習問題是因爲你正在期待(或有)對用戶向你拋出的每個文件名的100%正確響應。因此,對於每個數據點(文件名),您都有一個明確的標籤(目錄結構) – 2014-09-05 18:55:31