2
還有this關於阿拉伯語情感分析的文章。文本分類 - 使用stemmer會降低結果嗎?
在5頁開始的時候說:
「實驗也表明,特徵提取和分類之前所產生的話幾乎總是降低的結果」。
後來在同一頁上,他們指出:
「......和阿拉伯光詞幹用於詞幹的單詞」
嗯我認爲,一個stemmer/lemmatizer是總是用於文本分類之前,爲什麼他說它會降低結果?
謝謝:)
還有this關於阿拉伯語情感分析的文章。文本分類 - 使用stemmer會降低結果嗎?
在5頁開始的時候說:
「實驗也表明,特徵提取和分類之前所產生的話幾乎總是降低的結果」。
後來在同一頁上,他們指出:
「......和阿拉伯光詞幹用於詞幹的單詞」
嗯我認爲,一個stemmer/lemmatizer是總是用於文本分類之前,爲什麼他說它會降低結果?
謝謝:)
我不知道阿拉伯語,也可能是具體在很多方面,我的回答認爲英語。
恩我以爲在文本分類之前總是使用詞幹分析器/詞法分析器,爲什麼他說它會降低結果呢?
不,它完全取決於任務。如果你想提取一些文本的一般概念,那麼詞幹化/ lematization是一個很好的步驟。但在分析每個單詞很有價值的短小塊時,詞幹簡單地破壞其意義。特別是 - 在情緒分析中,詞幹可能會摧毀這個詞的情緒。
嗨@lejlot :)第一件事:謝謝。一個問題:「在分析短塊時,干擾只會破壞含義」?! O_O您能否提供解釋/示例/來源?而且我給出了第二個引號,以表明他們最終使用了詞幹分析師......儘管他們不應該有這個詞語? (順便說一句:我也不懂阿拉伯語,但我認爲主要的區別在於它是一種非常彎曲的語言)。 – Cheshie
詞幹只是縮短單詞的一套規則,在這個過程中它可能會失去意義。有什麼令人驚訝的呢?任何減少數據量的操作 - 減少信息量。考慮一個蘭開斯特詞幹和詞:硬 ,更難 ,硬化 ,硬漢;它們在英語中有完全不同的含義,它們都具有相同的詞幹「硬」,這使得這個過程失去了大量的信息。 – lejlot
關於報價 - 我沒有閱讀報紙,因爲這對我來說並不是很有趣。但首先,他們聲明它*幾乎總是*減少結果,而不是*總是*,也許在他們的情況下它不會發生,所以它們可以阻止,並且他們聲明他們使用** light **可能是「光「意味着失去意義。例如,Wordnet lemmatizer比lancaster stemmer輕得多。 – lejlot