2
我目前使用PorterStemmer來標識派生詞。但是,我面臨的問題不是意思相同,而是具有相同的含義。例如:
Market
和Marketing
Wine
和Winning
等。
具有不同的含義,但PorterStemmer它們標識爲是相同的。避免匹配具有不同含義的流行詞的詞幹
哪些開放工具能夠克服這些問題?有角落的字典?更先進的詞幹?
最好是可以通過PHP輕鬆訪問的東西。
我目前使用PorterStemmer來標識派生詞。但是,我面臨的問題不是意思相同,而是具有相同的含義。例如:
Market
和Marketing
Wine
和Winning
等。
具有不同的含義,但PorterStemmer它們標識爲是相同的。避免匹配具有不同含義的流行詞的詞幹
哪些開放工具能夠克服這些問題?有角落的字典?更先進的詞幹?
最好是可以通過PHP輕鬆訪問的東西。
這是一個已知的詞幹分析問題,因爲它們在沒有任何語言知識的情況下以語音爲基礎進行操作。你需要一個lemmatizer。我主要使用Java-based Stanford CoreNLP,但我確定PHP中必須有一些東西。
你在PHP中找到了什麼嗎? –
對不起,還沒有找到任何結果。如果你這樣做,請更新我。 – Noam