在傳統的「單熱」表示的單詞作爲載體,你有一個與你的詞彙的基數相同的維度向量。爲了降低維度,通常停用詞將被刪除,以及應用詞幹,引理等來標準化你想要執行一些NLP任務的功能。如何預處理嵌入文本?
我無法理解是否/如何預處理要嵌入的文本(例如word2vec)。我的目標是將這些詞嵌入用作NN的特徵,以將文本分類爲主題A而不是主題A,然後在主題A的文檔(使用第二個NN)上對它們執行事件提取。
我的第一本能是預處理,刪除停用詞,詞彙化詞幹等。但是當我學習NN時,我意識到應用於自然語言,CBOW和skip-gram模型實際上需要整套詞要存在 - 爲了能夠預測來自上下文的單詞,需要知道實際的上下文,而不是歸一化之後的上下文的簡化形式......對嗎?)。實際的POS標籤序列似乎是人類預測單詞的關鍵。
我發現some guidance online但我仍然很想知道社區在這裏認爲:
- 關於是否有任何近期普遍接受的最佳實踐標點符號,詞幹,lemmatizing,停用詞,數字,小寫等?
- 如果是這樣,它們是什麼?一般來說,處理越少越好,或者更重要的是要規範文本?是否有權衡?
我的想法:
這是更好地去除標點符號(如,但西班牙不刪除口音,因爲做傳達相關信息),更改的書面號碼數字,不要小寫的一切(有用爲實體提取),沒有詞幹,沒有引文。
聽起來不錯?