Elasticsearch vs. Hadoop For Advanced Analytics

A Tale of Two Platforms Elasticsearch 是卓越的文档索引以及全文检索工具。其基于JSON的DSL(Domain Specific query Language)简单而又强大(我觉得比SQL还差得远,好在近期新的版本发布了Elastic SQL :),使得其成为web app中集成搜索引擎的事实上的标准。那么作为analytics 后端是否胜任呢? 我们是否真的找到了一个“Hadoop”杀手呢? 首先来回忆一下一个高级“分析”系统一般都是如何构建的。开始的时候,你的app可能只需要像“mixpanel”或者“Google Analytics”这样的功能就够了,随着系统发展,产品经理的问题变得越来越难以回答: “What's the completion rate for femail Chinese users in my newly defined cohort X through the revamped user action funnel Y?” 这一问题需要cohort X的用户数据被摄取、标记出来后,再执行自定义查询来回答。为解答此问题,你需要开始收集访问日志数据,构建一个完全的“分析流水线”。经过一番调研后你会发现,有不少已有的解决方案是构建于Hadoop基础之上的,但是越来越多的开发者开始考虑使用Elasticsearch来做这件事情。怎么会这样的?一个搜索引擎真的会适合“分析”工作么? Elasticsearch For Analytics Elastic的ELK分析套件,包括Logstash(负责搜集服务器端日志)、Kibana(可视化窗口)在web分析应用中,得到了很多应用,因为: 1. 首先你非常容易运行起一个Elasticsearch实例 2. Elasticsearch 基于JSON的查询语言比Hadoop的MapReduce要容易操作的多 3. 对于应用开发者,Elasticsearch是工具箱中的一个已有工具,而Hadoop套件可能需要他们去全新的学习 这些原因,导致那些需要快速启动、运行分析需求解决方案的,会更倾向于选择Elasticsearch。但是一个搜索引擎,用他们执行“数据摄取”、数据分析工作,比起像Hadoop这样的具备高度扩展能力的分布式数据处理平台,其表现如何呢? Streaming Ingestion(流式数据摄取) 很多团队,会被Elasticsearch

The Future of Data Management Solutions is Autonomous

分析市场(Analytics )的数据管理解决方案随着云的地位的巩固而不断发展,Hadoop的使用案例得到澄清,逻辑数据仓库的采用不断扩大,中国供应商(aliyun,腾讯)向国外拓展。在这种动态背景下,本报告将帮助您找到适合您业务的合适供应商。 市场定义/描述 我们将分析数据管理解决方案(DMSA)定义为支持和管理一个或多个文件管理系统(通常是数据库)中的数据的完整软件系统。 DMSA包含特定的优化以支持分析处理。这包括但不限于支持关系模型处理,非关系型处理(如图形处理)以及机器学习和编程语言(如Python和R)。数据不一定存储在关系结构中,并且可以有多个模型使用 - 例如关系,XML,JSON,键值,文本,图形和地理空间。 虽然传统的数据仓库用例仍然是大多数组织的分析计划的基础,但他们也有兴趣管理和处理日益多样化的内部和外部数据格式。因此,完整的DMSA必须能够适应多种数据类型。这些可能包括交互和观测数据 - 例如物联网(IoT)传感器 - 以及非关系数据,如文本,图像,音频和视频数据。 相关角色和技能的广度和范围也在不断扩大,因为组织正在参与新的使用案例,这些案例可以更全面地了解来自越来越多来源的数据。 我们定义了DMSA的四个主要用例,它们反映了数据和用例的多样性(另请参见注释1): 传统的数据仓库 实时数据仓库 与上下文无关的数据仓库 逻辑数据仓库(LDW) 我们的定义还指出: • DMSA不是特定的类别或类型的技术。 • DMSA可以由许多不同的技术组合而成。但是,任何产品或服务组合的核心都必须能够通过开放式访问工具通过标准API(如开放数据库连接(ODBC),Java数据库连接(JDBC),代表性状态传输( REST)和对象链接和嵌入数据库(OLEDB)访问。 • DMSA必须为独立的前端应用程序软件提供数据可用性,包括隔离工作负载需求的机制以及在受管数据实例中控制最终用户访问的各种参数。 • DMSA必须对其正在使用的数据进行管理控制。这意味着它必须控制数据如何被持久,访问,管理和保护。 • DMSA有许多不同的交付模式,例如独立DBMS软件,认证配置或参考体系结构,数据库平台即服务(dbPaaS)产品和数据仓库设备。这些是在我们对每个供应商的分析中一起评估的。 魔力象限:  供应商的优势和注意事项  Actian 总部位于美国加利福尼亚州帕洛阿尔托市的Actian为分析工作负载提供Actian Vector分析平台,Actian Vector in Hadoop,Actium X提供用于联合操作和分析处理。 Actian Vector分析平台还可以通过自带许可证模式或通过亚马逊机器映像(AMI)部署在亚马逊网络服务(AWS)和Microsoft Azure上,以实现社区支持的免费版本。 优势 • 对DMSA的再投资:由于战略和路线图的变化,Actian没有出现在魔力象限的2017年版本中。但是,在引入新的领导力后,现在正在重新投资Vector技术以满足分析需求。 • 性能:Actian Vector是一个面向列的内存DBMS,它使用矢量处理来执行查询。参考客户对该技术的性能表示赞赏。 • 物有所值:许多参考客户都称赞Actian的性价比。在我们的参考客户调查中,Actian比其他类别的价值更高。 注意事项 • 云支持:Actian尚未提供强大的云平台即服务(PaaS),即使云正在快速成为标准部署选项。这限制了Actian解决潜在客户群的能力。然而,Actian最近发布的AMI社区版以及计划在2018年为多种云平台上的Vector提供完全托管的企业PaaS选项的计划应该能够满足这种需求。