Elasticsearch vs. Hadoop For Advanced Analytics

A Tale of Two Platforms

Elasticsearch 是卓越的文档索引以及全文检索工具。其基于JSON的DSL（Domain Specific query Language）简单而又强大（我觉得比SQL还差得远，好在近期新的版本发布了Elastic SQL ：），使得其成为web app中集成搜索引擎的事实上的标准。那么作为analytics 后端是否胜任呢？我们是否真的找到了一个“Hadoop”杀手呢？

首先来回忆一下一个高级“分析”系统一般都是如何构建的。开始的时候，你的app可能只需要像“mixpanel”或者“Google Analytics”这样的功能就够了，随着系统发展，产品经理的问题变得越来越难以回答： “What's the completion rate for femail Chinese users in my newly defined cohort X through the revamped user action funnel Y?” 这一问题需要cohort X的用户数据被摄取、标记出来后，再执行自定义查询来回答。为解答此问题，你需要开始收集访问日志数据，构建一个完全的“分析流水线”。经过一番调研后你会发现，有不少已有的解决方案是构建于Hadoop基础之上的，但是越来越多的开发者开始考虑使用Elasticsearch来做这件事情。怎么会这样的？一个搜索引擎真的会适合“分析”工作么？

Elasticsearch For Analytics

Elastic的ELK分析套件，包括Logstash（负责搜集服务器端日志）、Kibana（可视化窗口）在web分析应用中，得到了很多应用，因为：

1. 首先你非常容易运行起一个Elasticsearch实例

2. Elasticsearch 基于JSON的查询语言比Hadoop的MapReduce要容易操作的多

3. 对于应用开发者，Elasticsearch是工具箱中的一个已有工具，而Hadoop套件可能需要他们去全新的学习

这些原因，导致那些需要快速启动、运行分析需求解决方案的，会更倾向于选择Elasticsearch。但是一个搜索引擎，用他们执行“数据摄取”、数据分析工作，比起像Hadoop这样的具备高度扩展能力的分布式数据处理平台，其表现如何呢？

Streaming Ingestion（流式数据摄取）

很多团队，会被Elasticsearch 流式数据摄取的限制给埋进坑里。首先，Elasticsearch产品化部署，构建成集群后，一旦出现集群网络通讯中断，你可能会丢失网络中断期间100%的流式数据摄取。——现在是2019年，这个问题已经得到了基本解决。但是仍然要考虑这一点，因为，很多时候，你采集的数据都是不可“重现”的，你不可能要求用户回到你的app，重新执行一下在你机房网络故障期间的操作。Logstash没有“replay”选项，这就会要求你需要先将数据保存在真正的数据库里，比如Hadoop，MongoDB等定时将数据推送给Elasticsearch进行分析，Elasticsearch不能构成整个分析流程的全部。好在这个缺陷可以使用fluentd来解决，我们可以基于fluentd，构建data lake，先将数据存储在hadoop中：

Production Resource Management

配置一个Elasticsearch集群比起你最初以为的要困难的多（Elasticsearch是这样，Kubernetes其实也是这样，一个节点玩玩so easy，配置个集群你行你上）。随着数据量增加，你不可避免的遇到很多“坑”、错误。

比如：索引分片数量必须要在初次创建索引的时候指定，索引一旦创建，就不能修改。这就要求你在刚建索引，还不知道数据会有多大的时候，先准确的猜出其大小。小数据集，大分片数会导致数据碎片化、性能下降；而为一个大数据集指定了太小的分片数量，有可能将来会遇到“分片”最大大小限制……

为了解决这个问题，Shay Banon建议大家使用时间分类的索引来存储流数据（这个我们在ELK中已经“惊奇”的见识过了），以避免单一索引数据集无休止的增长。

Schema-Free 不等于 Pain Free Uploads

Schemaless不代表你可以存入任意 key/valve 格式的数据，这是因为，Elastic针对不同的key，要分别为其创建索引。所以Elasticsearch建议你使用更generic的key/valve，

Time Consuming Bulk Uploads

另一个在Elasticsearch中存储大数据集合时会遇到的问题是批量上载数据问题。默认HTTP POST的大小限制是100Mb。一旦上传数据超过这个限制，Elasticsearch会报错中断（Out of Memory），这时候，报错之前的数据已经成功索引了，完整的数据又没有全部导入（就怕被哥哥这样闪在半道口）…… 想着就头疼。

缺少强力 “分析” 功能

Elasticsearch 的aggregation和全文检索能力，对于统计 404 错误，pageview、人群分类统计等非常高效。但是其不具备我们在传统SQL中已经常见的“窗口分析函数”功能，有了窗口函数，可以通过单个查询回答更大的问题, 例如按国家/地区划分的热门页面、关键指标上的移动平均线或触发前事件跟踪。也就是说Elasticsearch的分析能力有限制。

另外，Elasticsearch也缺少类似JOIN的操作特性。

那么Hadoop如何呢？

Hadoop是“工业级”的分布式数据处理领域的中坚力量。通过HDFS隔离“数据”和“集群状态”，master节点负责管理整个集群的状态，多个子节点仅仅负责存储数据。这些数据节点接受master节点的数据处理命令，将所有操作记录为静态日志文件。整个集群具备容错能力，备用master节点可以迅速重建系统状态，防止集群“脑裂”。

Hadoop同时具备一个完整的生态，有支持批量上载、数据摄入的组件，有支持类似传统数据库查询能力的SQL处理引擎。当然，从另一方面来说，要想运行起一套Hadoop，Zookeeper加Kafaka数据摄入agent可不是件轻松事情。所以说，Hadoop环境稳定可靠、功能强大的代价是巨大的设置以及维护成本。

Hadoop强大的MapReduce查询框架强大无匹，轻松实现各种数据“聚合”、转换工作。但是对于绝大多数简单web分析任务来说，掌握复杂的MapReduce是不必要的额外负担。这就意味着，为了避开MapReduce的复杂性，还需要为Hadoop配置一套查询引擎，比如HiveQL或者Facebook的Presto，这样分析工作就可以通过类似SQL而不是MapReduce来完成。这一引擎无比强大，但是其又更进一步的增加了整个Hadoop分析架构的复杂性。

结论： Hadoop仍然胜出

即使如此，Hadoop仍然是analytics世界的王者。Elasticsearch对于简单的web analytics来说是伟大的解决工具，但是其流式数据装载过程可能的数据丢失风险仍然是其“阿喀琉斯之踵”，缺少合适的ETL也使其难以构建完整的“分析”系统。 Elasticsearch非常适用于“简单类型”的分析场景，其即插即用的可视化（Kibana开一代潮流之先）也非常优秀，但是其似乎还没有具备所有“企业级”分析应用所必须的素质——这文章是2015年的，现在可是2019年了，Elastic 刚刚发布了7.0版本……

利用整个Hadoop生态来搭建“分析”系统仍然有着陡峭的学习曲线，但是它绝对会值得你的付出。诸如Elasticsearch-Hadoop connector工具的出现，使得我们在部署“分析”系统时会更加灵活。

北京星图伟业信息技术有限公司

Kubernetes咨询、ORACLE数据库灾难恢复、Devops产品...

北京星图伟业信息技术有限公司

Kubernetes咨询、ORACLE数据库灾难恢复、Devops产品...

Leave Comment Cancel reply