2015-04-26 73 views
0

我正試圖設計一個基於UIMA的分佈式可擴展管道。我應該如何決定在Hadoop上使用UIMA DUCC或UIMA?如果我在UIMA DUCC而不是Hadoop上構建它,反之亦然,我會錯過什麼?UIMA DUCC與郝普的UIMA

回答

3

一個維度是應用程序特徵。 Hadoop將對I/O密集型應用程序有很大的優勢。對於需要在不同線程中運行多個管道副本以實現高CPU利用率的大內存應用程序,DUCC應該具有很大的優勢。

另一個方面是利用UIMA和Hadoop的優勢。 DUCC建立在基本的UIMA功能之上,提供了許多擴展選項,內置了性能指標和調試支持,全部基於核心UIMA組件。 UIMA管道越複雜,DUCC的優勢就越大;例如,可以在DUCC中直接實施複雜的處理流程,但可能必須對map-reduce進行轉換。

對於那些有足夠的Hadoop專門知識,一個相對簡單的UIMA分析可以容易地集成到現有的Hadoop店,而無需學習很多關於UIMA。

+0

謝謝您的回覆......那麼,我們是否也可以說,在Hadoop上移植現有的UIMA DUCC管道需要簡單的工作,但是要從Hadoop轉移到UIMA DUCC可能需要設計更改(和UIMA學習)? – kundan

+0

鑑於在Hadoop上運行的現有UIMA管道,將其移動到DUCC的動機可能是CPU利用率較差,在HDFS和傳統文件系統之間移動數據的開銷或Hadoop不穩定。 –