2013-01-07 42 views
2

我目前使用PorterStemmer來標識派生詞。但是,我面臨的問題不是意思相同,而是具有相同的含義。例如:
MarketMarketing
WineWinning
等。
具有不同的含義,但PorterStemmer它們標識爲是相同的。避免匹配具有不同含義的流行詞的詞幹

哪些開放工具能夠克服這些問題?有角落的字典?更先進的詞幹?

最好是可以通過PHP輕鬆訪問的東西。

+0

你在PHP中找到了什麼嗎? –

+0

對不起,還沒有找到任何結果。如果你這樣做,請更新我。 – Noam

回答

3

這是一個已知的詞幹分析問題,因爲它們在沒有任何語言知識的情況下以語音爲基礎進行操作。你需要一個lemmatizer。我主要使用Java-based Stanford CoreNLP,但我確定PHP中必須有一些東西。