大数据开发:OLAP开源数据分析引擎简介

热点资讯 2021-01-14 19:10:33

针对于不断新增的海量数据资源,企业需要通过及时地数据分析处理,才能从中挖掘出价值线索,反哺业务,实现数据驱动业务发展。而企业级的数据分析场景,多是采用OLAP数据分析引擎。今天的大数据开发分享,我们就主要来讲讲主流的几个OLAP开源数据分析引擎。

大数据开发:OLAP开源数据分析引擎简介

对于企业而言,想要控制成本,那么选择开源框架进行开发是不二之选,而在OLAP数据分析领域,开源的技术框架是非常多的,而各个框架各有优缺点,最终还是需要结合到实际需求去进行技术选型。

OLAP开源引擎

目前市面上主流的开源OLAP引擎包含不限于:Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greeplum等,这里选取比较有代表性的几个框架来具体展开——

大数据开发:OLAP开源数据分析引擎简介

Apache Hive

说到Hive,大家想必都不算陌生,作为Hadoop的数据仓库工具,Hive在大规模的数据分析处理上,是非常有优势的。

Hive的运行原理,是将HQL语句(类SQL语法)转化成MapReduce进行执行,本质上来说,就是一款基于HDFS的MapReduce计算框架,使用HQL就可以对存储数据进行分析。

Hive的优点是学习简单(支持SQL语法)、扩展性强(底层基于HDFS)。但是同时,Hive的缺点也是明显的,因为底层需转换为MapReduce任务执行,所以延迟性是比较高的。所以通常来说,Hive更适合数据仓库的统计分析。

Spark SQL

SparkSQL的前身是Shark,它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive。

热门推荐

推荐

本网页已闲置过久,点击关闭或空白处,即可回到网页 关闭

    图片错误无法显示