2012-02-28 90 views
1

我們知道配置單元在分揀工作開始之前不會進行採樣。它只是利用MapReduce的分揀機制並在縮減側執行合併排序,並且只使用一個reduce。由於減少了收集映射器輸出的所有數據例如,一臺運行Reduce的機器擁有100GB的磁盤,如果數據太大而無法裝入磁盤,該怎麼辦?在Hive中如何實現排序(排序)?

回答

0

Hive的並行排序機制仍在開發中,請參閱here

設計良好的數據倉庫或數據庫應用程序將避免此類全局排序。如果需要,請嘗試使用Pig或Terasort(http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)