impala和hive的区别有什么

首页 / 教学 / 教育 | 2022-03-29 01:14:43 点击:0

impala和hive的区别主要有以下几个：

impala和hive的区别有什么

1、执行计划不同：

Impala: 把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的 map-reduce模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。

Hive的执行计划分成 map-shuffle-reduce-map-shuffle-reduce…的模型。如果一个Query会被编译成多轮MapReduce，则会有更多的写中间结果。由于MapReduce执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。

2、数据流不同：

Impala: 采用拉的方式，后续节点通过getNext主动向前面节点要数据，以此方式数据可以流式的返回给客户端，且只要有1条数据被处理完，就可以立即展现出来，而不用等到全部处理完成，更符合SQL交互式查询使用。

Hive: 采用推的方式，每一个计算节点计算完成后将数据主动推给后续节点。

3、所使用的内存不同：

Impala: 在遇到内存放不下数据时，会直接返回错误，而不会利用外存，这使用得Impala目前处理Query会受到一定的限制，最好还是与Hive配合使用。Impala在多个阶段之间利用网络传输数据，在执行过程不会有写磁盘的操作（insert除外）。

Hive: 在执行过程中如果内存放不下所有数据，则会使用外存，以保证Query能顺序执行完。每一轮MapReduce结束，中间结果也会写入HDFS中，同样由于MapReduce执行架构的特性，shuffle过程也会有写本地磁盘的操作。

4、调度不同：

Impala: 调度由自己完成，目前只有一种调度器simple-schedule，它会尽量满足数据的局部性，扫描数据的进程尽量靠近数据本身所在的物理机器。

Hive: 任务调度依赖于Hadoop的调度策略。

本站声明：本站部分文章来自网络，由用户上传分享，如若内容侵犯了您的合法权益，可联系我们进行处理。文章仅供大家学习与参考,不**本站立场。

*评论只允许汉字和全角中文标点符号。？！，等