2012-06-19 67 views
4

我想讓我的頭繞着UIMA體系結構。使用UIMA處理HTML

我想創建一個以HTML標記開頭的管道。我需要去掉純文本,所以它可以被不同的註釋器處理,比如POS,分塊,實體檢測等。但是我也想跟蹤哪些區域對應於原始html標籤,比如鏈接,段落,em等等。基本上我想要一個最終的註釋器,它可以同時利用結構註釋(來自html)和語義註釋(來自其他組件)。

因此,我可以想象從一個剝離html標記的組件開始,並添加註釋以跟蹤我感興趣的標記。此類組件是否已經存在?這似乎是很多人想要的東西。

如果我必須從頭開始創建它,它是什麼類型的組件?它不僅僅是一個直接的註釋器,因爲它需要改變SOFA:它需要用純文本替換標記。

或者我應該創建一個新的文檔視圖,所以我們維護文檔的標記視圖和純文本視圖?這似乎很奇怪,因爲我再也不會關心標記視圖。另外,如何確保其他註釋器(我不會自己編寫代碼)在文檔的純文本視圖上操作,而不是在標記視圖上操作?

回答

0

UIMA Ruta提供了這個任務有些分析引擎。 HtmlAnnotator在html文本中爲不同標籤創建註釋。 HtmlConverter能夠創建一個僅包含html文本的新視圖,但具有相應的標記註釋。有一些配置參數用於處理換行符等。對於在管道中沒有沙發映射的進一步處理,ViewWriter可以將新的純文本視圖複製到新文件的_initalView。

免責聲明:我是UIMA Ruta的開發者