2017-06-21 33 views
0

我正在開發一個NLP項目,其中列出了所有與讚賞有關的電子郵件。我試圖從電子郵件內容中確定誰被讚賞。這反過來會幫助組織在我們的績效評估計劃中。使用ML/NLP識別電子郵件中引用的人

除了識別誰被讚賞之外,我還試圖確定一個人完成的工作類型並對其進行評分。我使用開放的NLP(最大熵/邏輯迴歸)對電子郵件進行分類,並使用某種形式的啓發式來識別被讚賞的人。

的人識別的方法如下:

  1. 確定是否電子郵件是與升值
  2. 獲取的人的名單在「To:」如果那個人是列表
  3. 檢查被中提到的電子郵件
  4. 標記,人爲升值的接收器

然而,這Appro公司ach非常簡單,不適用於我們通常看到的複雜電子郵件。一封電子郵件可以由許多電子郵件ID或被引用的人組成,並且他們不是欣賞的接受者。該人的背景是不可用的,因此準確性不是很好。

我正在考慮使用HMM和word2vec來解決人員問題。如果有人遇到此問題或有任何建議,我將不勝感激。

+0

你應該給你的文本的樣本。 – Daniel

回答

0

對於R.使用tm包並使用tf-idf(詞頻 - 逆文件頻率)來確定已欣賞的對象。

我在暗示這一點,因爲對於我所能讀的,這是一個無人監督的學習(你以前不知道結過什麼)。所以你必須描述文件(電子郵件)的內容,而這個公式(tf-idf)將幫助你知道哪些單詞在特定的文檔中最常用,而在其他文檔中很少使用。

0

解決此問題的一種方法是通過使用命名實體識別。您可以在文本中運行諸如斯坦福NER之類的內容,這將幫助您識別電子郵件中提到的所有人名,然後使用基於規則的chunker(如Stanford TokensRegex)提取人物和讚賞詞的提及語句。

解決此問題的最佳方法是將此視爲監督學習問題。然後,您需要用實體和表達式短語及其之間的關係來註釋一堆訓練數據。然後你可以使用斯坦福關係提取器來提取適當的關係。

相關問題