2017-05-29 49 views
-2

可以說我正在創建一個小的擴展(因此我的大部分代碼都在JS中)。而且,鑑於字符串如列表:機器學習,從字符串中提取信息

歌手 - 歌曲名稱

藝術家,歌曲名稱

歌曲名稱 - 歌手

無關的信息 - 歌曲名 - 歌手

等。

我只需要從字符串中提取歌曲名稱,但是,我無法預測字符串可能出現的所有表單。

所以我的問題是什麼是最好的方式來提取這些信息?它是機器學習嗎?如果是這樣,代碼可以用JS編寫,還是應該使用API​​?或者,除了機器學習以外,還有其他解決方案?

PS

我知道,這個問題並沒有真正遵循的是可以在這個網站上提出的問題的指導方針,我知道這是一種開放性的,模糊的,但我不能想想別的地方去問這個,所以

謝謝你提前。

+0

這與機器學習無關。爲什麼你有這些字符串,它們從哪裏來? – juvian

回答

0

素描這會對工作:

  • 化妝的正則表達式所有可能的分割字符(逗號,連字符等。)
  • 將您的字符串使用這個正則表達式
  • 爲一體的刺條假設這是一個標題
  • 兩片弦假設長片是標題,和更短的是一個藝術家
  • 藝術家和標題(或你與他們的全球數據庫獲得更好的結果)
  • 搜索,如果一些您的標題是不一樣的,有些藝術家的化妝名單 - 這可能是可能的錯誤
  • 三 - 或 - 更多作品根據您的名單識別藝術家
  • 用於件休息假定低指數(越接近字符串的開頭)部分是標題
  • 最終你可以通過谷歌API搜索,如果你打成標題片就比其他部分返回更多的結果

當然這不會理想地工作,但我認爲你不期望它。

0

機器學習涉及大量的統計數據。所以,把它放在一個非常基本的概括中:「機器」必須學習的是一個單詞或一組單詞傾向於是歌曲名稱還是藝術家的可行性。

這就是學習部分開始的地方:某人或某個其他機器必須在開始時「教」機器「作爲起點。

然而,即使是人類也不知道「颶風」是否是歌曲或例如樂隊名稱。有需要的上下文信息才能找到正確的分類。

也許,使用已經提供此信息的開放式API將是更好的方法。你也許對這想看看這個問題:

的東西

Is there a free database or web service api for music information (albums, artists, tracks)?

相關問題