使用ML/NLP識別電子郵件中引用的人

我正在開發一個NLP項目，其中列出了所有與讚賞有關的電子郵件。我試圖從電子郵件內容中確定誰被讚賞。這反過來會幫助組織在我們的績效評估計劃中。使用ML/NLP識別電子郵件中引用的人

除了識別誰被讚賞之外，我還試圖確定一個人完成的工作類型並對其進行評分。我使用開放的NLP（最大熵/邏輯迴歸）對電子郵件進行分類，並使用某種形式的啓發式來識別被讚賞的人。

的人識別的方法如下：

然而，這Appro公司ach非常簡單，不適用於我們通常看到的複雜電子郵件。一封電子郵件可以由許多電子郵件ID或被引用的人組成，並且他們不是欣賞的接受者。該人的背景是不可用的，因此準確性不是很好。

我正在考慮使用HMM和word2vec來解決人員問題。如果有人遇到此問題或有任何建議，我將不勝感激。

你應該給你的文本的樣本。 – Daniel

對於R.使用tm包並使用tf-idf（詞頻 - 逆文件頻率）來確定已欣賞的對象。

我在暗示這一點，因爲對於我所能讀的，這是一個無人監督的學習（你以前不知道結過什麼）。所以你必須描述文件（電子郵件）的內容，而這個公式（tf-idf）將幫助你知道哪些單詞在特定的文檔中最常用，而在其他文檔中很少使用。

2017-06-21 06:00:42

解決此問題的一種方法是通過使用命名實體識別。您可以在文本中運行諸如斯坦福NER之類的內容，這將幫助您識別電子郵件中提到的所有人名，然後使用基於規則的chunker（如Stanford TokensRegex）提取人物和讚賞詞的提及語句。

解決此問題的最佳方法是將此視爲監督學習問題。然後，您需要用實體和表達式短語及其之間的關係來註釋一堆訓練數據。然後你可以使用斯坦福關係提取器來提取適當的關係。

2017-06-22 19:39:33

回答