2011-07-12 98 views
1

我知道這是一種普通的開放式問題。我基本上是在尋找幫助來決定前進的方向,也許還有一些閱讀材料。文本挖掘 - 從非結構化文本中提取樂隊名稱

我正在研究一種非結構化文本挖掘算法,並試圖從該文本中提取特定的樂隊名稱(單個藝術家,樂隊等)。文本本身沒有可預測的結構,但相對較小(1,2行文本)。

一些例子可能是(不是真實的事件):

Concert Green Day At Wembley Stadium 
Extraordinary representation - Norah Jones in Poland - at the Polish Opera 

現在,我想嘗試了分類,但文字似乎小爲它提供任何真正的訓練信息。 可能還有其他幾種文本挖掘技術,啓發式算法或算法,可能會爲這類問題產生良好結果(或者可能沒有算法)。

+1

你是對的,因爲這個問題可能對於SO來說太開放了。我建議你搜索SO,以及廣泛的網絡,帶有諸如命名實體識別/提取,NER等關鍵詞,因爲這將爲您提供一些關於該領域的實踐和挑戰的更精確的想法。雖然不是重複的,但是這個問題:http://stackoverflow.com/questions/1643616/algorithms-to-detect-phrases-and-keywords-from-text可能是一個很好的開始。 – mjv

+0

讓我明白這一點:你有你想要的樂隊列表,或者你一般在尋找樂隊名稱? –

回答

1

由於數據的結構,預先訓練的模型可能表現不佳。此外,一般組織,位置類別可能不會對你有用。

我不認爲文本本身太小,大多數NER系統一次只能處理一個句子。因此,提供自己的NER庫培訓集可能會工作得很好,如http://nlp.stanford.edu/ner/index.shtml

如果您不想創建培訓集,您將需要一本包含所有樂隊/藝術家的詞典。那麼你顯然找不到未知的樂隊/藝術家。

+0

我還沒有嘗試過,但我懷疑NER標記可能因爲首都的數量而在「溫布利體育場的音樂會綠色日」等句子中遇到麻煩。但是,如果他們這樣做,那麼他們的輸出可以被饋送到分類器(或從維基百科中提取的簡單的頻帶列表)。 –

+0

是的,我認爲他們也會。但是,如果他們接受過像現在這樣的資本的自定義數據集的培訓,那麼不是。 – Rasmus

0

有簡單的NER算法,可以簡化任務: 採取可能(或不是)命名實體的話,並在谷歌或雅虎(通過API)搜索他們兩次:作爲單獨的單詞和精確的短語(即帶引號)。分數結果。有閾值(< 30)確定單詞是否構成命名實體。