阿里云12年:向下扎根,向上生长
过去十多年,云计算从零起步发展到万亿规模,且仍以两位数增速持续攀升。Gartner预测2021年全球云计算市场规模预计将达到1.7万亿元。
在规模持续攀升的同时,作为云计算领域的头部企业,阿里云更在意的是自己为数字化转型做出什么有价值的贡献。
“我们今天最大的挑战是如何去定义云计算未来是怎么样子的,去引领数字化转型的进程。在这个进程里面提供有竞争力、差异化的能力和产品。”在2021杭州云栖大会期间,阿里云智能总裁张建锋表示,公司近几年推出的一系列产品就是为了能够引领未来。
过去两天,阿里云连续发布了多款重磅产品,包括自研通用CPU、自研服务器磐久、神龙4.0、龙蜥云操作系统、阿里灵杰AI平台等等。此前一周,发布了钉闪会、钉钉文档、钉钉项目等多款协同办公工具,并宣布低代码平台在8个月内新增86万应用、入驻开发者已达90万人。
这一系列动作,展示了阿里云对于未来发展的思考:双向生长。向下,持续夯实云基础技术;向上,为数字化提供一个标准化的开发平台。
不止步于云计算
云计算深入硬件领域,始于2017年。时年冬,亚马逊AWS发布了一款自研的云服务器硬件——Nitro,这一消息让整个科技圈一片沸腾。这意味着,云服务商——这一典型认知上的软件企业开始“杀入”硬件领域。
而在45天前,阿里云发布了第一款由云厂商自主研发的云硬件——神龙云服务器。
地球东西两端的两家云厂商,不约而同地走到了同一个路口,开始钻研硬件。他们其实都是为了解决同一个问题:用一款为云而生的硬件架构,解决云虚拟化损耗的问题。
虚拟化损耗是云计算行业的一大难题。云的一项基本工作是将物理服务器虚拟化,再将虚拟化后的“云服务器”提供给用户使用。例如,用户性能需求高时,用8核16G服务器;需求低时用2核1G服务器,以此来实现云的弹性。
然而,因为虚拟化的过程中需要分出一部分CPU用于调度,因此会造成性能“损耗”,极端场景下,损耗甚至能超过一半。
2015年,阿里云的虚拟化技术架构从KVM更换至Xen,将虚拟化的损耗从极端场景下的50%降低至10%左右。那已是软件算法的极限,再进一步的可能性几乎为零。
想要彻底解决问题,只能从硬件入手。
2016年,阿里云秘密启动了一项代号为“X-Dragon”项目,将外部云盘存储、VPC网络等资源嵌入专属板卡,专门做调度工作,从而避免了调度“打架”造成的损耗。一年多以后,神龙云服务器正式面世,这款搭载了专属硬件板卡的裸金属服务器,史上首次将云计算性能损耗降至0。
自此,云计算开始向下进入硬件领域。
亚马逊AWS推出了针对EC2 Inf1机器学习应用的芯片AWS Inferentia,谷歌发布了一款为数据中心设计的机器学习芯片,直接命名为“Cloud TPU”。阿里旗下的平头哥推出了RISC-V处理器玄铁910、自研AI芯片含光800、自研通用服务器CPU。
目前,平头哥拥有处理器IP、AI芯片及通用CPU等产品,旗下玄铁系列处理器出货量已达25亿颗;两年前问世的阿里第一颗芯片含光800已实现规模化应用,通过阿里云服务了搜索推荐、视频直播等行业客户。
“我们芯片团队这两年能力成长还是非常快的,因为含光是ASIC的芯片,它的功能、复杂度可能与通用CPU来比还是有很大不一样的。所以你能设计通用CPU,就是能力很大的检验。”张建锋认为,能力主要体现在大型工程的管理能力、技术判断、芯设计到中间交付等。
迄今为止,全球云厂商中只有阿里云和AWS成功研发了通用服务器CPU。此前,AWS推出也曾推出自研Garviton 2服务器CPU。
构建以云为核心的IT技术体系
为何云计算厂商非要“死磕”自研服务器、CPU等硬件产品?
首先,最直接的考量是成本。
阿里云、AWS、微软管理着数百万台服务器规模的大型数据中心,以100万台服务器体量计算,CPU芯片成本可达到10亿乃至几十亿美元。若采用自研服务器,可以有效降低成本。以手机行业类比,安卓手机采购一枚高通骁龙800系列旗舰处理器,价格约120美元,而苹果自研iPhone处理器A系列成本价不足50美元,且性能甚至更优。
几年前,为了解决虚拟化损耗问题,阿里云、亚马逊AWS分别推出神龙和Nitro,大幅降低了云计算的使用成本。在2019年的AWS技术峰会中,亚马逊透露,基于Nitro架构的计算实例、内存实例、GPU实例价格分别下降35%至49%不等。
另一重考量,是构建一个以云为核心的IT技术体系。
云的核心价值是“按需使用”形成弹性,用户计算高峰时配置高性能,低谷时则降低性能。这背后就是云的“池化”能力,通过虚拟化,将计算、存储等几项工作分离,形成一个个大资源池,需要时随时提供。
然而,云计算的解耦模式与传统IT中计算、存储、内存绑定模式所需的能力大相径庭,市场上的IT硬件都是为传统模式设计的,没有专门为云设计的IT架构。比如,传统IT像是一条广阔公路,注重的是单条公路的修缮能力;而云是100条公路同时开通,重要的是这100条公路的协调能力。
“我们的交换机都是自研的,这些交换机并非与其他产品有技术代差,但它们更适合在云计算的超级数据中心中使用。”张建锋认为,构建更适合云的硬件体系,是云计算步入深水区的关键一役。
云是天然的平台属性,当千行百业迈向数字化转型时,云就是数字底座。阿里云反复强调“做深基础”,就是不断强化数字底座的能力,基础越深,底座就越稳。在此基础上,足够强大的自研产品体系就是这个底座的有力支撑。
张建锋认为自研CPU是“为云而生”,他介绍说,“云上负载是大规模、高并发的情景,而CPU有两类,一类是单核性能非常强,第二类是有很多核,多核工作。从测试结果看,多核表现明显优于单核表现,所以大家可以看到,自研CPU的核数多达128核。”
与自研CPU一同面世的,还有自研云服务器磐久、神龙4.0、龙蜥操作系统和阿里AI一体化平台灵杰,并迎来自研数据库PolarDB的重磅升级。
一系列产品的发布不仅是单点技术的进步,更是从芯片、服务器、虚拟化架构、服务器操作系统到数据库、AI能力的全方面升级。一套完整的、以云为核心的基础技术体系展现在世界面前。
阿里云、AWS、谷歌等厂商均有类似“做深基础”的动作,通过对芯片、虚拟架构、云操作系统、数据库等各层面云技术的自研和不断突破,构建出一个以云为核心的IT技术体系,进而形成一套为云量身定制的软硬件技术架构。这不仅是云计算的发展方向,更是对整体IT产业链的变革和重塑。
为企业数字化提供标准化开发平台
在向下持续夯实基础的同时;阿里云还在思考如何为企业数字化提供一个标准化的开发平台,将转型的门槛降至最低。
在底层技术层面,几个月前,阿里云宣布了“一云多芯”策略,飞天云操作系统全面兼容x86、ARM、RISC-V等多种CPU架构。
过去,如果用户想同时选用ARM、x86等CPU,只能采用多云协同,为ARM集群和x86集群各自建设存储与网络的配套设备,不仅成本高、资源浪费,而且还会带来多云管理问题。而一云多芯将不同架构CPU的算力标准化,向下屏蔽硬件差异性,向上提供一致性服务。
这意味着企业可以同时选用多种CPU架构的服务器,综合使用多种优势,无需考虑适配问题。
在此基础上,企业进行数字化转型,也应该不必顾虑应用开发问题——顺应这一思路,阿里云采用了“双向生长”模式,向下屏蔽硬件,提供标准化服务,向上继续生长,“长”出一个最直接的应用开发平台。
2020年9月,阿里云推出“云钉一体”战略,即将钉钉作为一种新型操作系统和应用开发平台,让不懂代码的非技术人员也能按需开发企业应用,用最低成本满足企业数字化转型所需。今年1月,钉钉发布低代码应用开发平台,这是一种将各种开发程序模块化,使普通用户不必懂代码编程,也能通过“拖拉拽”方式开发应用的新模式。
过去,数字化常常成为许多企业的一笔烂账。从外部咨询、业务部门提需求开始,信息部门进行开发或者外部招投标,然后经历“需求-开发-测试-上线-维护”;走完一个周期,往往又是新的部门需求、新周期开启,最后每多一个系统,就多出一个烟囱,导致即使是一个中小企业,内部也依然烟囱林立。在“云钉一体”的构想中,“企业应该拥有数字化的自主权”,每个普通的非技术员工,可以根据业务需求自己开发应用,他面对的应该是由低代码应用开发平台构成的简单界面,背后,AI、大数据、数据库、云操作系统、CPU各种技术层层堆叠,共同支撑。
钉钉的低代码平台推出后8个月,平台入驻开发者增加至90万人,金蝶、用友、纷享销客等头部厂商入驻,低代码应用新增86万个,全平台“钉应用”数量超过150万。
这样的低代码平台切合了企业数字化转型的需要,与微软、谷歌云的方向不谋而合,微软打出Teams+Azure战略,该战略实施后,微软在两年内市值翻倍;谷歌将云与应用结合,将G Suite更名为Worksapce,为用户提供全套协同办公软件。
除了企业层面,对于消费者而言,在今年的云栖大会上,阿里云为设计师用户打造了专属的一体机,采用阿里最新的无影架构,能过有效地提升设计师的使用体验。
过去,人们购买电脑需要先配置处理器、显卡、内存、硬盘,再决定安装哪种系统,并将应用下载到本地使用。如今,用户无论在云电脑还是其他设备上登陆无影,过去在Windows、Linux、安卓或国产操作系统的3D渲染、视觉设计、编程环境、手机游戏等软件,10多个演示应用图标聚集于一屏。用户无需切换系统,无需下载,即点即用。单应用经过适配,目前最高可使用1024核CPU和8块高性能GPU。
云入深处,待新世界。