一)確定每一個(或大部分)字在一個句子
B的言論)的部分有這些詞的用戶選擇的替代品 - 或用計算機等價詞替換它們
我看着斯坦福分析器,但它有點慢...有什麼建議嗎?
一)確定每一個(或大部分)字在一個句子
B的言論)的部分有這些詞的用戶選擇的替代品 - 或用計算機等價詞替換它們
我看着斯坦福分析器,但它有點慢...有什麼建議嗎?
如果你只是使用部分的語音(POS)標籤,而不是解析樹使用的POS惡搞
,你實際上並不需要使用一個解析器。相反,您可以使用獨立的POS標記器。
POS tagging is much faster than phrase-structure parsing。在Xeon E5520上,Stanford POS tagger可以在3秒內標記1700個句子,而使用Stanford Parser(Cer et al. 2010)解析相同的數據大約需要10分鐘。
有一個相當全面的其他POS標籤的列表here。
對於工具包方法,有NLTK工具包。它在Python中,所以喜歡的速度可能不是你想要的;但是作爲一個教學工具包,有很多不同的方法可以實施。 IE瀏覽器。即使底層語言可能不是最快的,也可能很容易實現快速解析器/標記器。
+1提供參考。 – 2010-12-02 20:17:27