2014-09-05 27 views
0

我手頭有一個問題陳述,我需要知道它是否可以通過機器學習來解決。它是這樣的: -帶動態類集的多標籤分類的侷限性

我在其中一個用戶可以上傳文件,所以讓我們說我們有一個名爲 xxxZxxx.xxx

用戶進入多層次到系統的文件夾結構,並將該文件系統文件,(比如說) A/B/C/d/Z/xxxZxxx.xxx

我們需要一個系統,讀取文件名並建議 路徑它在哪裏放置。

在這種情況下,文件名包含路徑的最後一部分,這是一個Business Object目錄,但它可能不包含。我們有10^5的路徑和文件。

和新路徑,即可以隨着時間增值業務對象,這使它成爲一個多類分類與大約10^5類,不斷提高

這是可以解決的?

我嘗試使用一袋字符(靈感來自單詞袋)作爲失敗的特徵向量。

對此可以遵循的任何方法有何評論?讓我知道是否需要其他信息我將編輯問題或更改標籤。

回答

0

所以要使它成爲真正的ML問題,請回答下列事項:

1)爲什麼水溼你剛纔讀的文件名,並獲得該文件需要被放置在CHID文件夾?是否因爲如你所說用戶可能沒有證明子文件夾的名稱作爲文件名的一部分?還是因爲可能有許多用戶提供的名稱的目錄?

2)ML問題通常具有統計性​​質的模式,這些模式很難用簡單的裸眼識別,例如,使用正則表達式。在這裏,您可以使用正則表達式搜索輕鬆找到適當的文件夾,不是嗎?

+0

嗨,我已經通過你提到的選項。用戶可能會或可能不會將文件名稱作爲子文件夾,儘管它只有一個。這不是一個可以使用reg-ex的問題。我們正試圖在人們的命名規則中找到一種模式,如果這樣做更清楚的話。 – divyenduz 2014-09-05 12:46:05

+0

所以你說用戶可能會提供一個可能與已經存在的目錄相匹配的名稱,或者它可能是一個完全不同的名稱。而且你不知道用戶命名約定,因此你不知道要尋找什麼樣的模式。 如果以上是真的,你想把它變成ML問題,那麼它必須是一個監督學習。你有以前的用戶數據在哪裏你已經知道什麼用戶給文件名corressponds什麼目錄結構?如果有,那麼我們可以進一步考慮把這個問題作爲一個ML問題,否則所有的希望都會丟失,我認爲它是一個ML問題。 – 2014-09-05 18:54:06

+0

爲什麼很難把它當成一個無監督的學習問題是因爲你正在期待(或有)對用戶向你拋出的每個文件名的100%正確響應。因此,對於每個數據點(文件名),您都有一個明確的標籤(目錄結構) – 2014-09-05 18:55:31