2017-02-24 74 views
-3

我幾乎沒有包含用於發佈工作的電子郵件對話的文件。我想提取職位名稱,地點和持續時間,但很難弄清楚我該怎麼做。 這裏是幾個主題行的例子。python中的文本解析

主題:尋找軟件開發者:克蘭伯裏新澤西 - 12月合約

主題:爲數學老師在華沙全職立即要求。

主題:AP FICO顧問-----北卡羅萊納州

+1

你是怎麼做的?你寫代碼。如果您遇到編寫代碼的特定問題,請在此處提問,但「我怎樣才能解決[這個大問題]對於本網站來說不是一個合適的問題。 –

回答

2

這是不可能的使用正則表達式來數據集準確地過濾到你所需要的類別,如果數據集有類似的例子,你沒有明確的格式發佈

1

您需要深入瞭解並找出如何分析您正在尋找的關鍵字的主題行。您需要交叉引用地點名稱,職位名稱並過濾掉絨毛文字和字符。

如果你真的想進入這個,你應該看看Deep Machine LearningNeural Networks來處理這些主題行以提取相關信息。只有當你能夠做到這一點(或類似的)時,你才能夠對你的電子郵件進行分類,並突出顯示這些關鍵字的排序/組織。

這不是一個簡單的過程,如果你追求它,祝你好運!