进入2021年中,全球数据领域发生了几件影响未来走向的大事件,无论是经典数据库领域,还是新兴的大数据市场,几个“关口事件”似乎都指向一个未来的趋势:“开源+云”将成为主导未来的融合力量。
在美国,大数据平台Hadoop最重要的发行商Cloudera被私募基金收购并将被私有化,这也成为了Hadoop时代的转折点;云端数据平台Snowflake则给出了惊人的173%的年营收增长(2019-2020财年),并预计将保持每年至少30%的营收增长直到2028-2029财年。
在中国,阿里系的PolarDB和OceanBase数据库宣布开源;腾讯云发布首款全自研分布式分析型数据库TDSQL-A;新锐数据库厂商PingCAP则发布了拥有完整HTAP能力的TiDB 5.0版本,为企业数字化转型提供一栈式数据服务平台……
数据技术领域,已经多年未有这种“山雨欲来风满楼”的感觉了。或许,包含数据库技术的大数据产业正在面临“二十年未有之大变局”;而驱动这场大变局的关键因素,来自数据技术供需两侧的双向巨变:在需求侧,数字化在全行业的加速带来了持续的动力;在供给侧,“开源+云”的力量成为改变数据技术的内聚力量,将过去20年分散多元的数据技术栈融合起来。
数字化加速成为全球趋势
如果说疫情给世界带来的最大变化,那就是我们已经永久性地进入了“数字化加速”时代。进入新周期的互联网服务走向“B2C、长连接、秒级反馈”的沉浸时代;传统企业加速数字化转型,以实现线上线下融合、DTC( Direct to Customer)、数字化运营以及对企业员工的数字化赋能。
未来不存在所谓的传统企业,只有数字化企业;而且所有的企业,都必须对员工进行数字化赋能。我们知道,贝因美是一家知名的婴幼儿奶粉生产商,其线下门店有1.5万导购,如何利用数量众多的导购发展、维系会员客户,不断提升服务质量,一直是贝因美思考的重点问题。为此,贝因美在企业微信中做了个应用“会员购买”。当贝因美的会员购买奶粉的时候,会扫描绑定奶粉罐上唯一的二维码,绑定会员信息,并存到内部的系统,以便统计客户购买数据。系统也会评估这个顾客的食用周期,预测下次购买会在什么时候,再把信息推送到导购员,进而全面提升顾客满意度和回购率。
正如贝因美所揭示的那样,企业的业务需求正在走向“海量,实时、在线”的基本形态,企业组织的核心能力变成“敏捷创新,实时反馈”的能力,数据成为企业经营的新血液,这也对企业的IT架构提出了新的要求,必须做到“三个实时”:实时反馈、实时处理、实时分析。
为了应对这种要求,无论是互联网公司还是传统企业,都在搭建更适合的IT架构,公有云服务、SaaS应用、低代码开发、Serverless等新技术和新模式得到了广泛应用。
不过,要让这些新技术和新模式真正发挥作用,企业还需要与时俱进的数据技术解决方案,原因很简单:真正的数字化企业必然是建立在大数据基础上的企业,它所做的任何经营活动,都必然涉及到数据的收集、提取、整理、分析等活动。如果没有适合自己的数据解决方案,企业的IT架构要做到“三个实时”,只能是空谈。
双剑合璧的组合利器
那么,如何才能构建与时俱进的大数据解决方案?关键还是用好“开源+云”这个组合利器。通过开源,吸引全球最有实力的开发者,获取全球最活跃用户的真实需求,打造全球最具竞争力的大数据产品。然后通过“云”这种最有效率、最为直接的服务模式,将产品交付给企业客户。
我们看到在过去20年里,开源催生了Hadoop、MySQL、MangoDB等多款大数据产品,并与AWS、Google Cloud等云服务结合起来,成功应用于全球TOP20互联网大公司。如今,拥有了强大数据能力的GAFA(Google、Amazon、Facebook、Apple)和AT(阿里巴巴、腾讯)等互联网大公司,已经成为全球最有竞争力、也最有价值的公司。
Google之所以能够成为全球最有价值的公司之一,关键就在于其“整合全球信息”的能力。过去这些年里,Google基于开源技术打造了一个大数据平台,包括3个相互独立又紧密结合在一起的系统:Google文件系统(GFS)、MapReduce编程模式、大规模分布式数据库BigTable。通过这个大数据平台,Google能够实现对海量数据的存储和处理。当然,这些也都是通过“云”才能实现。此外,Google还通过搜索引擎这种典型的云服务,为全球用户提供整合之后的信息,使人人都能访问并从中受益。由此可见,“开源+云”,帮助Google实现了“数字强权”。
与互联网巨头一样,传统企业也在通过“开源+云”构建属于自己的数字化能力。作为新兴的智能终端公司,小米不仅发布智能手机、平板电脑、智能手环等产品,还在与众多第三方企业一起构建小米生态链,并基于众多智能硬件产品产生的大数据,提供“小爱同学”等互联网服务。小米一直都是开源技术的拥趸和热情参与者,不仅为开源社区做出了不小的贡献,还在各项业务中广泛使用HBase、Kylin、Kafka、MapReduce、Spark、Strom,Hive等开源技术和工具,对沉淀在海量智能硬件中的大数据加以利用,并通过Xiaomi Cloud承载旗下的各项移动互联网服务。
实际上,如今“开源+云”已经成为数据领域最热门的组合。根据中国信息通信研究院所做的调查,2019年中国开源服务企业所做的二次开发中,51.9%来自于云计算领域,排在第一位;而数据库和大数据则分别排在第二位和第三位。
遭遇瓶颈
不过,这种“演进+叠加”的模式产生了大量不断迭代的架构和产品,虽然帮助TOP 20互联网大公司实现了“数据强权”,却也让大多数企业都跟不上,主要原因有三点:
1.互不相容的多家公有云,导致割裂的服务;
2.碎片化的数据技术栈,导致集成的困难;
3.交易和分析平台分离,无法集中使用。
由于企业所在地的政策限制以及便利性的要求,如今很多企业往往同时选择多家公有云平台提供服务,例如在中国选择阿里云,在海外选择AWS,相关数据也会分布在不同的公有云上面,它们对于数据的存储、处理、交流方式各有不同。对于企业来说,将自己所有的数据统一管理本来是天经地义的事情,而在这种情况下却遇到了空前的阻碍,降低了企业的经营效率。
由于历史原因,很多企业在各种数据工具上叠床架屋,最后却发现造不出一栋适合居住的房子。以国内某银行为例,要对海量数据进行分析,必须首先在交易核心数据库中跑批处理,再ODS抽取ETL分析到数据仓库,再进一步训练流式计算,最后再放入数据湖,整个数据手动的过程至少需要一天。而且Hadoop和数据湖的开源生态中很多组件并不兼容,日常运维已捉襟见肘,想提速也无从下手。IT部门如此不给力,而业务部门对于转瞬即逝的营销机会却又是如此渴求,T+1分钟可能都会嫌慢,导致了双方永远都在争吵不休。
也正是因为如此,过去十年间,除了TOP 20互联网大公司之外,80%的Hadoop大数据项目都失败了。在《The Forrester Tech Tide™:数据管理》2020年一季度报告当中,已经把Hadoop平台列为需要“剥离”(Divest)的数据管理平台之一。而前不久知名Hadoop发行商Cloudera之所以被私募基金收购并私有化,也是因为Hadoop大数据平台的广泛应用不尽如人意。
The Forrester Tech Tide™:数据管理
破解之道在融合
可是,企业的数字化转型不能等,“数据驱动业务”这条路必须走通。要破解如今的大数据瓶颈,同样需要用到“开源+云”这个组合利器,只不过模式发生了根本性的变化。
正所谓“分久必合”,未来大数据的技术路线将走向“合”——融合和简化。简化就是通过屏蔽复杂性,通过自动伸缩,自动运维,HTAP等路线来解决;融合要是让大多数企业的数据库和大数据技术栈融为一体,形成一个一体化的数据底座(Data Foundation)。Gartner在评价2021年技术趋势的时候提出:一个一体化的数据平台可以加速数字化转型,这也是大多数企业一直梦寐以求的方向。
让我们看看一家典型的中国互联网创业公司,如何利用“合”的力量。作为中国知名的知识分享平台,知乎沉淀了海量的问答数据。过去,知乎用的是MySQL,并采用分库分表+MHA机制来提升系统的性能并保障系统的高可用,当每月新增一千亿数据的情况下,已经出现了瓶颈。知乎后来决定迁移到PingCAP的TiDB产品,迁移到TiDB之后,整个系统最弱的“扩展性”短板就被补齐了,现在整个系统都是高可用的,随时可以扩展,而且性能变得更好。之后,知乎还希望对一万多亿条已读数据进行分析,挖掘其中的价值。而在以往,这种高吞吐的写入和庞大的全量数据规模,用传统的ETL方式是难以在可行的成本下将数据每日同步到Hadoop上进行分析的。当知乎有了TiDB的分析引擎TiFlash的支持之后,一切就变得有可能了。知乎目前采用TiDB一个入口,覆盖了数据库,数据分析,流式计算,数据仓库等等一系列需求,只用3个DBA支撑数千台的集群,充分享受到了简化,融合的好处。还基于同一个架构自行开发了替代Hbase的Zetta产品,并贡献给社区用户采用,形成了一个技术供给的良性循环。
如今,以PingCAP为代表的开源分布式数据库,跨越了数据库与大数据的边界,催生了新的数据服务模式,让知乎借助一栈式数据平台获得数据处理的综合能力,进而适应这个“数字化加速”时代企业的需求。
重塑数据产业
由此可见,“数字化加速”时代的企业需求在变,作为供给方的数据产业也必须要变。如果说此前二十年,通过“开源+云”让TOP 20互联网大公司构建了自己的数据平台、实现了数据强权的话,未来二十年,还是借助“开源+云”的力量,将会涌现出一批真正能够解决企业数据瓶颈的服务企业,并彻底重塑全球数据产业。
实际上,巨变正在发生。在美国,初创公司Snowflake走上了云原生数据仓库的道路,并提出了DaaS(Data warehouse-as-a-Service)数据仓库即服务的概念,使得客户能够在一个易于使用的平台上管理和分析跨公有云(如Amazon的AWS、Google Cloud和Microsoft Azure等)的大量数据和各种类型的数据。由此,Snowflake的服务大受客户欢迎,上市后也得到资本市场认可,目前市值高达700亿美元。
在中国,同样出现了PingCAP这样的数据“新物种”,其核心产品充分汲取开源社区的养分,TiDB数据库历经了六年五大版本的迭代,迈向企业级核心场景应用,最终形成“场景-社区-产品”飞轮,打造出一栈式的解决方案。之后,PingCAP还推出了TiDB Cloud(多云部署)服务,通过全新的云端服务模式,将数据处理做成了“消费化”的SaaS。
由此,我们再看2021年中数据产业发生的诸多大事件,就会恍然大悟:原来,全球数据库和大数据产业正在发生一场深刻的技术变革,它将彻底改变未来20年企业数字化的发展方向。