我是一個完整的初學者機器學習,所以請原諒我的一般問題。機器學習 - 現場映射
我想從隨機數據集的列名映射到已知數據集的列。例如,列名'image_link'需要匹配隨機數據集,其中相同的列名可以是'圖像鏈接',然後另一個可以是'img_url'。
我有一個大的數據集的每個列名
我相信機器學習是有可能幫助這一點,並開始尋找到這種不同的變化。我用python做了一些機器學習,主要是我覺得不適合這個問題的線性迴歸。
我已經通過谷歌做了很多研究,看看我能否得到類似的東西的任何例子,但我無法找到很多。任何人都可以幫助我,並告知我是否應該使用機器學習來解決這個問題,如果有的話,是否有任何特定的機器學習技術可能適合這個問題,所以我知道我的研究有什麼方向。
任何幫助,將不勝感激。
編輯**
更多的研究後,我有種感覺像一個分類是去也許使用SVM或樸素貝葉斯的方式?
我也創建了一個非常基本的數據集,但準備處理這種數據的最佳方法是什麼?
--------------------------------------------------
| **Category** | **Term** |
--------------------------------------------------
| id | SKU |
--------------------------------------------------
| id | id |
--------------------------------------------------
| id | productID |
--------------------------------------------------
| link | productLink |
--------------------------------------------------
| link | URL |
--------------------------------------------------
| link | link |
--------------------------------------------------
| image_large | Image |
--------------------------------------------------
| image_large | ImageMedium |
--------------------------------------------------
| image_large | image_link |
--------------------------------------------------
| image_thumb | ImageSmall |
--------------------------------------------------
| image_thumb | Image |
--------------------------------------------------
| image_thumb | image link |
--------------------------------------------------
謝謝您的回答:)我已經使用了Levenshtein距離實現模糊搜索。問題是我們也可能有'標題'這樣的東西,也可能有'名稱'或'產品'等其他列名稱,這將失敗使用此方法。 – Neil