回答

7

信息提取

(IE)是自動提取的非結構化和/或結構化的信息的任務的半結構化的機器可讀的文檔。在大多數情況下,本活動涉及通過自然語言處理(NLP)處理人類語言文本。最近在多媒體文檔處理中的活動,如自動註釋和從圖像/音頻/視頻中提取內容可以被看作是信息提取。

文本挖掘

是獲得相關的信息資源的活動,從信息資源的集合需要。搜索可以基於元數據或全文索引。

與信息檢索相比,文本挖掘是廣闊的領域。典型的文本挖掘任務包括文檔分類,文檔聚類,建立本體,情感分析,文檔摘要,信息提取等。 信息檢索通常涉及抓取,解析和索引文檔,檢索文檔。

Source

1

首先讓我們看看這兩個重要的詞的含義。

文本挖掘是新的,以前未知的信息自動發現,各種文本resources.It的自動分析開始由文字來源提取事實和事件,然後能形成新的假設,即由傳統的數據挖掘進一步探討和數據分析方法。

信息提取更NLP(自然語言處理),在那裏你訓練機提取原始文本隱藏信息&機器學習問題。

所以差異可以說是 - 文本挖掘是一個廣闊的領域相比信息提取。 文本挖掘關注在非結構化文本中尋找模式。信息抽取(IE)的相關任務是關於在自然語言文檔中查找特定項目