我想讓我的頭繞着UIMA體系結構。使用UIMA處理HTML
我想創建一個以HTML標記開頭的管道。我需要去掉純文本,所以它可以被不同的註釋器處理,比如POS,分塊,實體檢測等。但是我也想跟蹤哪些區域對應於原始html標籤,比如鏈接,段落,em等等。基本上我想要一個最終的註釋器,它可以同時利用結構註釋(來自html)和語義註釋(來自其他組件)。
因此,我可以想象從一個剝離html標記的組件開始,並添加註釋以跟蹤我感興趣的標記。此類組件是否已經存在?這似乎是很多人想要的東西。
如果我必須從頭開始創建它,它是什麼類型的組件?它不僅僅是一個直接的註釋器,因爲它需要改變SOFA:它需要用純文本替換標記。
或者我應該創建一個新的文檔視圖,所以我們維護文檔的標記視圖和純文本視圖?這似乎很奇怪,因爲我再也不會關心標記視圖。另外,如何確保其他註釋器(我不會自己編寫代碼)在文檔的純文本視圖上操作,而不是在標記視圖上操作?