我正在尋找一種對不同格式的10位(大部分)整數密鑰進行分類的算法。訓練數據集看起來像這樣:分類10位密鑰的算法
+------------+----------------+
| key | classification |
+------------+----------------+
| 1000| US |
| 1000045331 | US |
| 000| DE |
| 0003453202 | DE |
| 000K213411 | ES |
| 000K243221 | ES |
+------------+----------------+
這些密鑰來自不同的系統並以不同的方式創建。有大量的訓練數據集可用。雖然我認爲這些密鑰的某些部分是隨機的,但結構並非如此。
任何幫助將不勝感激。
我認爲你可以計算每個類別的最長公共子字符串,因爲結構看起來是根據示例定義的。 10000-> US,000-> DE,000K2-> ES –
密鑰如何以不同方式創建的不同系統不重疊?很可能有一個範圍和代碼系統。 – stefan