2014-04-05 176 views
0

我是數據挖掘的新手,目前正在致力於RapidMiner中TOI的在線新聞文章。我的目標是獲得顯示文章中提及的最重要內容的結果,或查找隱藏在其中的有價值信息。文本挖掘單個文本文檔

我已完成文章「TOI宣言」http://timesofindia.indiatimes.com/home/specials/lok-sabha-elections-2014/news/TOI-manifesto-An-agenda-for-the-new-government/articleshow/31973967.cms的文檔處理。 我已經應用了標記,過濾和ngram,並得到了一些結果。

我被困在這裏。我不知道如何繼續下去。我應該在RapidMiner中使用哪種技術/算法來獲得所需的結果?

+0

目前尚不清楚「所需結果」是什麼。也許尋找頻率最高的單詞? – fstab

+0

我正在尋找提供有關文章主要信息的句子。有沒有辦法做到這一點? – user3501916

回答

1

您不需要數據挖掘。數據挖掘是先進的統計方法。

經常關注定量分析。

您正在尋找自然語言處理。您沒有大型數據庫。

你有一個單一的文件。你不需要定量結果,但是具有質量。您正在使用錯誤的工具。

+0

感謝您的回覆!我正在使用RapidMiner禮儀中的信息提取插件擴展。它會有幫助嗎?或者你會爲此建議我使用哪種其他工具? – user3501916

+0

@ Anony-Mousse:我不同意你的看法。單個文檔可能會被視爲可以轉換爲大型數據集的數據源。數據挖掘可能有助於提取文檔中的某些模式。 – fstab

+0

RapidMiner的信息抽取擴展在這裏有一些文檔http://www-ai.cs.uni-dortmund.de/auto?self=$fqhavm6c,以防你沒有看到它。命名實體識別(NER)被提及一個公平的位。 – awchisholm