2011-07-08 74 views
0

我想在Ruby中解析事件(音樂會,電影,等等,等等),數據和使用什麼樣的工具不能決定。解析數據和POS與樹梢與斯坦福NLP

我以爲斯坦福解析器是去最初的樣子,但後來聽到樹梢的。

我正在努力解決這個問題,因爲讓斯坦福解析器與Windows上的Ruby一起工作已經花費了兩天以上的搜索和努力工作,並且沒有結束安裝錯誤。

Treetop沒有問題,但文檔非常有限,從我可以收集的內容來看,似乎樹頂最好在處理語法結構而不是實際內容,但也許我並不完全理解Treetop能力。

一個好東西(我認爲)是,我已經是樂隊和電影名稱的大型數據庫/文集(?),而我期待檢索數據相當有限的部分。

例如,一個列表

 
The Tragically Hip with Guest Hey Rosetta!, Friday Jul 15th, 7:30pm, Deer Lake Park 

另一個列表

 
07/08/11 - Tacoma Dome, New Kids on the Block & Backstreet Boys w/ Matthew Morrison, 7:30pm, Tacoma, WA 

隨着我試圖抓住的細節,而具體的組中的每個上市,是誰/什麼,日期,時間,城市,地點。

由於我已經有一個樂隊名稱的數據集,並且城市名稱應該很容易得到一個列表,所以應該'相當'容易地選出其他細節,我只是不確定哪個工具我應該獻出時間,還是有更好的方法來做到這一點?

有什麼建議嗎?

回答

2

否,treetop用於解析更結構化的語言(如計算機語言)。對於自然語言分析(NLP),你最好使用斯坦福分析器或類似的東西。看一看關於NLP這個博客條目結合紅寶石:

http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

+0

感謝巴特,我實際上遇到的是博客員額從我以前的搜索,可惜它沒能明確的,因爲你關於TreeTop(和一般的PEG)關注解析結構化語言。雖然我仍然有點卡住,因爲我解析的不完全是「結構化語言」。它更像是半結構化語言的片段,我碰到一個方法來測試斯坦福分析器對我的樣本數據http://nlp.naturalparsing.com/browserparser/parse來了,但它是不是真的返回結果的方式我可以和他們一起工作。 – pedalpete