2013-07-04 87 views
1

我是Rapidminer的新手。我有很多XML文件,我想根據關鍵字手動對這些文件進行分類。然後我想在這些數據上訓練一個像樸素貝葉斯和SVM這樣的分類器,並使用交叉驗證器來計算他們的表現。如何使用Rapidminer處理XML文件進行分類

您能否讓我知道不同的步驟?

我是否需要使用文字處理活動,如令牌化,TFIDF等?

回答

0

的步驟會去像這樣

  1. 遍歷文件 - 即通過遍歷文件夾中的所有文件和讀取每一個設置。
  2. 對於每個文件
    • 將其作爲文檔讀取。
    • 使用運算符(如Extract InformationCut Document)將其標記爲包含合適的XPath查詢以輸出與文檔中提取的信息相對應的行。
  3. 創建一個包含所有行的文檔向量。這是使用TF-IDF或其他方法的地方。選擇取決於TF-IDF是一個通常的選擇,在這種情況下,重要的是要給予相對較少數量的文檔中經常出現的令牌更多的權重。
  4. 構建模型並使用交叉驗證來估計未看到的數據的性能。

我已經包含一個link到您可以用作此基礎的過程。它讀取包含XML文件的RapidMiner存儲庫,這是一個使用文本處理技術處理XML文檔的好例子。顯然,你將不得不爲你的情況做一些大的修改。

希望它有幫助。

0

也許,答覆已經太遲了。但它可以幫助其他人。有一個名爲'text mining extension'的擴展,我使用的是6.1.0版本。所以你可以去RapidMiner> help>更新並安裝這個擴展。它將從一個目錄中獲取所有文件。它有可能使用

而且各種文本挖掘算法,我發現這個視頻教程,這可能是對你有所幫助,以及 https://www.youtube.com/watch?v=oXrUz5CWM4E