2016-01-20 24 views
2

我有幾個關於UIMA Ruta TextRuler的問題。在Eclipse GUI外部使用Ruta TextRuler

是否有可能(我認爲它應該是)在Eclipse GUI之外使用TextRuler?如果是這樣,則可以提供調用它包括以下參數的GUI的外側的一個例子(因爲它們是被提供給GUI爲TextRuler,相同的):

  • 訓練數據文件夾
  • 附加數據文件夾(這是什麼?
  • 測試數據文件夾
  • 評估測試數據
  • 預處理腳本文件
  • 跳過預處理腳本文件
  • 信息類型,以嘗試提取
  • 過濾功能類型
  • 方法運行

其次,Eclipse的GUI(的最新發行版本)中,有沒有什麼辦法可以查看進度規則生成重置規則生成方法運行停止它們似乎遇到錯誤後?有時我會啓動它,並且它只停留在每個分析引擎旁邊的「加載AE」的「方法運行...」上,但沒有CPU利用率。

第三,在Eclipse GUI中有沒有什麼辦法可以將更多的CPU資源投入到提取過程中,或者加速執行TextRuler生成?它的利用率似乎最高可達25%左右,因此有足夠的CPU資源可用(我想知道它是否僅限於單核)。

最後,在Ruta文檔之外的Ruta TextRuler上還有其他資源可用嗎?我已經很難通過TextRuler上的任何其他材料來獲得它,並且很想了解更多信息。特別是我想了解更多關於每種學習模型的參數化。

回答

1

不幸的是,現在不能在Eclipse之外使用Ruta TextRuler(UIMA Ruta 2.3.1)。這是一個開放的問題,但它從來沒有高優先級:UIMA-2705

TextRuler框架通常沒有很好的維護和沒有太多的文檔。還有一個關於如何讓示例項目啓動並運行的附加部分:TextRuler HowTo

附加數據文件夾是規則學習算法的配置參數,它需要比黃金標準更多的數據。現在,這只是TraBaL算法。這裏,註釋的輸入xmi文件位於包含錯誤註釋的文件夾中。該算法嘗試學習校正規則,以便將這些註釋轉換爲訓練數據文件夾中給出的黃金標準註釋。

絕對和相對進度取決於配置的算法。有算法中間步驟的進度信息。一般應該可以停止執行算法。你描述的行爲聽起來像一個錯誤。當我找到時間時,我會看看它。

目前不支持並行化規則學習算法。如果選擇了幾種算法,它們將在不同的線程中執行。

ruta文件是我知道的主要信息來源。當然,文檔中提到的算法的出版物包含有關算法本身的更多詳細信息。也有關於TextRuler的舊刊物。參數通常是直接翻譯論文中描述的原始算法的參數。

免責聲明:我是UIMA Ruta的開發商

相關問題