使用UIMA處理HTML

我想讓我的頭繞着UIMA體系結構。使用UIMA處理HTML

我想創建一個以HTML標記開頭的管道。我需要去掉純文本，所以它可以被不同的註釋器處理，比如POS，分塊，實體檢測等。但是我也想跟蹤哪些區域對應於原始html標籤，比如鏈接，段落，em等等。基本上我想要一個最終的註釋器，它可以同時利用結構註釋（來自html）和語義註釋（來自其他組件）。

因此，我可以想象從一個剝離html標記的組件開始，並添加註釋以跟蹤我感興趣的標記。此類組件是否已經存在？這似乎是很多人想要的東西。

如果我必須從頭開始創建它，它是什麼類型的組件？它不僅僅是一個直接的註釋器，因爲它需要改變SOFA：它需要用純文本替換標記。

或者我應該創建一個新的文檔視圖，所以我們維護文檔的標記視圖和純文本視圖？這似乎很奇怪，因爲我再也不會關心標記視圖。另外，如何確保其他註釋器（我不會自己編寫代碼）在文檔的純文本視圖上操作，而不是在標記視圖上操作？

來源

2012-06-19 Dave

根據標記的複雜性，有些人使用Apache Tika，有些人使用Boilerpipe。

Here is a blog post來自想要在UIMA中使用Boilerpipe的人，但遇到了一個障礙，因爲他想將偏移保留回HTML。

Here is the UIMA annotator that calls tika.

來源

2012-06-19 00:26:42 bmargulies

UIMA Ruta提供了這個任務有些分析引擎。 HtmlAnnotator在html文本中爲不同標籤創建註釋。 HtmlConverter能夠創建一個僅包含html文本的新視圖，但具有相應的標記註釋。有一些配置參數用於處理換行符等。對於在管道中沒有沙發映射的進一步處理，ViewWriter可以將新的純文本視圖複製到新文件的_initalView。

免責聲明：我是UIMA Ruta的開發者

來源

2014-04-03 12:43:34

使用UIMA處理HTML

回答

相關問題