文本挖掘 - 從非結構化文本中提取樂隊名稱

我知道這是一種普通的開放式問題。我基本上是在尋找幫助來決定前進的方向，也許還有一些閱讀材料。文本挖掘 - 從非結構化文本中提取樂隊名稱

我正在研究一種非結構化文本挖掘算法，並試圖從該文本中提取特定的樂隊名稱（單個藝術家，樂隊等）。文本本身沒有可預測的結構，但相對較小（1,2行文本）。

一些例子可能是（不是真實的事件）：

Concert Green Day At Wembley Stadium 
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

現在，我想嘗試了分類，但文字似乎小爲它提供任何真正的訓練信息。可能還有其他幾種文本挖掘技術，啓發式算法或算法，可能會爲這類問題產生良好結果（或者可能沒有算法）。

來源

2011-07-12 Eugen

你是對的，因爲這個問題可能對於SO來說太開放了。我建議你搜索SO，以及廣泛的網絡，帶有諸如命名實體識別/提取，NER等關鍵詞，因爲這將爲您提供一些關於該領域的實踐和挑戰的更精確的想法。雖然不是重複的，但是這個問題：http://stackoverflow.com/questions/1643616/algorithms-to-detect-phrases-and-keywords-from-text可能是一個很好的開始。 – mjv

讓我明白這一點：你有你想要的樂隊列表，或者你一般在尋找樂隊名稱？ –

由於數據的結構，預先訓練的模型可能表現不佳。此外，一般組織,位置和人類別可能不會對你有用。

我不認爲文本本身太小，大多數NER系統一次只能處理一個句子。因此，提供自己的NER庫培訓集可能會工作得很好，如http://nlp.stanford.edu/ner/index.shtml

如果您不想創建培訓集，您將需要一本包含所有樂隊/藝術家的詞典。那麼你顯然找不到未知的樂隊/藝術家。

來源

2011-07-13 11:43:38 Rasmus

我還沒有嘗試過，但我懷疑NER標記可能因爲首都的數量而在「溫布利體育場的音樂會綠色日」等句子中遇到麻煩。但是，如果他們這樣做，那麼他們的輸出可以被饋送到分類器（或從維基百科中提取的簡單的頻帶列表）。 –

是的，我認爲他們也會。但是，如果他們接受過像現在這樣的資本的自定義數據集的培訓，那麼不是。 – Rasmus

有簡單的NER算法，可以簡化任務：採取可能（或不是）命名實體的話，並在谷歌或雅虎（通過API）搜索他們兩次：作爲單獨的單詞和精確的短語（即帶引號）。分數結果。有閾值（< 30）確定單詞是否構成命名實體。

來源

2015-06-28 21:05:32 jaboja

文本挖掘 - 從非結構化文本中提取樂隊名稱

回答

相關問題