我知道這是一種普通的開放式問題。我基本上是在尋找幫助來決定前進的方向,也許還有一些閱讀材料。文本挖掘 - 從非結構化文本中提取樂隊名稱
我正在研究一種非結構化文本挖掘算法,並試圖從該文本中提取特定的樂隊名稱(單個藝術家,樂隊等)。文本本身沒有可預測的結構,但相對較小(1,2行文本)。
一些例子可能是(不是真實的事件):
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
現在,我想嘗試了分類,但文字似乎小爲它提供任何真正的訓練信息。 可能還有其他幾種文本挖掘技術,啓發式算法或算法,可能會爲這類問題產生良好結果(或者可能沒有算法)。
你是對的,因爲這個問題可能對於SO來說太開放了。我建議你搜索SO,以及廣泛的網絡,帶有諸如命名實體識別/提取,NER等關鍵詞,因爲這將爲您提供一些關於該領域的實踐和挑戰的更精確的想法。雖然不是重複的,但是這個問題:http://stackoverflow.com/questions/1643616/algorithms-to-detect-phrases-and-keywords-from-text可能是一個很好的開始。 – mjv
讓我明白這一點:你有你想要的樂隊列表,或者你一般在尋找樂隊名稱? –