大数据平台的核心软件是
首先,凤凰城
这是一个Java中间层,允许开发人员在Apache HBase上执行SQL查询。Phoenix完全用Java编写,代码位于GitHub上,并提供了可由客户端嵌入的JDBC驱动。
Phoenix查询引擎将把SQL查询转换成一个或多个HBase扫描,并安排执行以生成标准的JDBC结果集。直接使用HBase API、协处理器和自定义过滤器,性能级对于简单查询是毫秒级,对于百万行是秒级。
第二,毒刺
最初被称为Tez,下一代Hive,Hortonworks领导了开发,运行在YARN DAG计算框架上。在一些测试下,Stinger可以提升大约10倍的性能,同时让Hive支持更多的SQL。其主要优势包括:允许用户在Hadoop中获得更多的查询匹配。包括OVER-like语句分析功能,支持WHERE查询,使得Hive风格的系统更加符合SQL模型。
第三,很快
脸书开源数据查询引擎Presto可以快速交互式分析250PB以上的数据。该项目于2012年秋季开始开发。目前,该项目已被超过1000名脸书员工使用,运行超过30000次查询,每日数据处于1PB的水平。脸书声称Presto的性能比Hive和Map*Reduce好10倍。
第四,鲨鱼
鲨鱼是火花上的蜂巢。本质上是通过Hive的HQL解析将HQL翻译成Spark上的RDD操作,然后通过Hive的元数据获取数据库中的表信息。关于HDFS的实际数据和文件将由Shark获得,并放在Spark上运行。
动词 (verb的缩写)猪
简介:Pig是一种编程语言,它简化了Hadoop的常见任务。Pig可以加载数据、表达转换后的数据并存储最终结果。Pig的内置操作使得半结构化数据变得有意义(比如日志文件)。同时,Pig可以扩展Java中添加的自定义数据类型的使用,支持数据转换。