这一次星环科技重回地球。
记忆犹新。一年前的孙元浩,重穿宇航服。当时,星环科技为数据云,组建了“联邦”,对大数据平台也进行重要升级,四层架构被解构为五层,计算引擎从此与存储引擎分离。一年之后,星环科技返航,而且是带着“他们”,重回地球。
一份蛮不讲理的“套餐”
一份套餐,曾经蛮不讲理地摆在你面前。
当你想要一份汉堡时,必须同时喝下一杯可乐,反之也亦然。问题是我只想吃汉堡,或只想喝可乐。大数据基础平台,曾经也是如此不讲道理,计算引擎与存储引擎被紧耦合在一起,数据不管冷热,只要纵向拓展,就需搭配一份计算集群;部门不论多寡,只要有项目启动,就要复制一份存储资源。
显然,这既不合理,也不经济,甚至还不安全。因为有时候用户只需要计算,不需要存储,或者只需要存储,不需要计算。两年前,星环科技已意识到这一点,并下决心对TDH进行重构,即将计算引擎与存储引擎进行分离。
这就是Transwarp Data Hub7.0版本的由来。
其价值如前所述,在TDH7.0平台的支撑下,用户可以丰俭由人,不必选择所谓的套餐。举例说明,企业中的财务、业务、市场、运营、人力资源等不同部门,需对同一份数据进行分析。在传统模式中,用户或排队,夜以继日地分批进行,或将数据复制多分,同步并行完成。前者是对时间资源的浪费,后者是对存储资源的浪费,且存在数据安全风险。
TDH 7.0平台则将计算引擎与存储引擎解耦。财务部门可以得到一个计算集群,运营部门可以在平行空间,也得到一个独立的计算集群,两个部门使用同一份数据,但不必先来后到的排队,也互不干扰。
一把钥匙开一把锁
这就是一年前的星环科技
而此次,星环科技重返地球,其对Transwarp Data Hub(TDH,一站式多模型数据管理平台)、Transwarp Data Cloud(TDC,数据云)、KunDB数据库、ArgoDB数据库、Studio大数据工具集、Sophon人工智能平台等各条产品线,均有进行了升级。
其中,TDH7.0版升级至TDH8.0版,存储引擎由4个增加至8个,对10种主流存储模型的兼容性,也进一步得到完善。在8个存储引擎中,星环科技对原有关系型数据存储引擎、宽表存储引擎、搜索引擎、图存储引擎,均进行了优化升级。而地理空间存储引擎被从搜索引擎中拆分独立,键值存储引擎、事件存储引擎、和时序存储引擎则为首次推出。
这就是TDH8.0版的设计精华之一。
举例说明,医疗大数据一直特立独行的存在,数据类型之多,数据模式之复杂,并非其他行业所能比。尤其是在抗疫过程中,用户需同时采集实时数据、历史数据、图片数据、位置数据、事件类数据等不同类型的数据。
此时,星环科技丰富的存储引擎“插件”,就将派上用场,不同存储引擎的组合应用,即可服务于多模态数据。这就是说,星环科技将爱谁谁的固定“套餐”,改变为谁都爱的“自助餐”。用户可以按需使用、自由搭配。
不仅如此。
所谓“一把钥匙开一把锁”,在数据类型单一的应用中,星环科技的存储引擎更可快速解码,计算引擎可以自动选择最优的存储引擎,以实现系统性能最佳、开发成本更低、运营维护更简单。
星环科技一点都不复杂
但话题至此,是否感觉星环科技的大数据平台越来越复杂?其实一点都不。存储引擎插件越来越多,用户只会体验到它的在性能、运维等方面变化,但在操作过程中,一点也会感觉不到它的复杂。
其实,从TDH7.0版本开始,其已被称为多模型数据处理平台。在TDH8.0版本中,更是针对多模型数据,形成了统一的SQL编译器、统一的分布式计算引擎、统一的分布式存储管理系统、统一的资源管理框架。
这就要简述数据库的发展历史。传统关系型数据库,针对不同的数据类型,配属不同的计算引擎。但由于计算与存储紧耦合,即使一把锁配备几把不同的钥匙,也很难避免接口也各自为政,很难实现数据共通、跨库关联,而且其所支持的数据类型也十分有限,多在3~6种之间。
当然,还有较为偷懒的方式,通过优化初始存算策略,以支持不同的数据模型,这种方式看似可以忽略不同的数据库,但实则效率较低。此外,还有更偷懒的方式。在原有多个存储引擎之上,增加创建一层统一的系统接口,通过接口“选择”不同的存储引擎,进行数据分发。但此模式同样存在弊端,接口经常不能因材施教,不能将不同的数据类型,最优地与存储引擎相匹配。
显然,星环科技一点都不想狡猾。TDH8.0版本可支撑10种不同类型的数据,而且不同的存储引擎,使用统一的计算引擎Nucleon。计算引擎能根据不同的存储引擎,自动地匹配高性能算法,无需用户手工干预。从而便捷的实现跨库关联,避免数据导入导出。
星环科技“科”而不“幻”
这还不是全部。
多模型数据处理平台,肯定不是星环科技唯一的的技术创新。TDH8.0平台的每一层均为解耦设计,可以独立通过容器化一键伸缩。这又引出4年前,乃至8年前,星环科技的一系列技术决定。
其实,星环科技每次进行重大技术选择时,竞争对手都等着在看笑话,但显然笑话并没有出现,吃瓜群众倒是凉了一堆,而星环科技手里的“瓜”,也是越来越甜。
星环科技创立初期,全力于对Spark引擎的改造,并推出了Inceptor分析型数据库。正是基于此数据库,星环科技在TPC-DS测试中一战封神。要知道,在此前12年中,没有一家完整通过全场景测试,更别说通过官方审计。
也几乎是在同时,数据上云已成必然趋势。对此,星环科技选择了以容器技术,重构底层基础架构,并投资研发基于云原生技术的云操作系统Transwarp Cloud Operating System。该系统则取代了Hadoop框架中的“YARN资源调度系统”,数据处理性能大幅提升。这也奠定了星环科技在数据云领域的行业地位。
延伸此思路。
四年前,星环科技以容器化方案,再次对数据平台进行重构。这也是一次充满争议的技术选择。甚至用户都开始怀疑,星环科技是不是选错了路线。但事实证明,正是此次重构后,推出的TDH5.0,以及TDC(数据云),恰又成为一个分水岭。
由此,星环科技从一家大数据公司,升级成为一家数据处理平台和工具的企业,其可围绕数据,提供大数据、小数据、智能分析、数据云等一系列服务。甚至在2017年时,美国的用户也开始寻求与星环科技合作,因为当时还没有任何一家美国公司,能推出类似,且成熟的产品。
在此阶段,星环科技的TDC(数据云)也成为领先时代的产品。其实,传统云计算只是以ICT物理资源为中心,而以数据为中心的数据云,则正在成为企业数字化建设的基础设施,即云计算2.0。显然,星环科技又是率先提出此概念,而此后其也被产业认可,但Cloudera等公司,只是在1~2年后,才推出类似平台。
当然,星环科技并没有停步。也是在此次发布中,星环科技正式推出TDC 2.4版本,这是一个集数据PaaS、分析PaaS、应用PaaS 于一体的数据云。也就是说,在一个PaaS平台上,星环科技可提供包括数据仓库/数据湖、数据治理、数据智能与分析、数据交易与共享等在内的完整的数据解决方案,以及应用生命周期管理能力,实现数据驱动,快速迭代,从而赋能企业持续创新。
主角光环从何而来?
由此可见,不管是对Spark引擎的改造、还是淘汰YARN资源调度系统;不管是基于容器技术,重构大数据平台,还是率先推出数据云。星环科技总能做出正确选择,且能将解决方案落地实现。
确实如此。
数据基础设施产业需要原创,更要不害怕走新路。星环科技的主角光环,星环科技每一次正确的选择,都不是“幸运”所能解释。他是在真正了解用户需求后,坚持不懈地进行技术创新,他是在以应用为导向,持之以恒地进行技术驱动。而这次,星环科技又带着“他们”,重返数字地球,这次又是有备而来。