为什么GPU的利用率这么低、浪费严重?简单讲,是因为大部分客户对于GPU的使用和管理颗粒度太粗,过于粗放。
我们通过类比来解释一下这个问题。现在把性能强大的 GPU 芯片比喻成大巴车,把不同的AI应用比喻成一个旅行团,把算力的使用方式比喻成运力的调度。
通常旅行团是有不同人数的,而大巴车可能有一个非常固定的规格,比如说50座的大巴车。今天最简单的算力使用方式,我们叫做使用大巴车的方式,就是不管来多大的旅游团(AI应用),我就派一辆大巴车(GPU芯片),那么肯定会浪费很多座位(算力),因为这种管理和使用方式下,一辆大巴车是一个最小的调度单元。当然,有时候会需要几辆大巴车共同来运送,自然就会造成大量的算力资源的浪费。
要解决这个问题,提高资源的利用率有很多方式。
其中一是通过硬件的方式来解决。硬件的调整可以在一定程度上缓解资源的浪费,但没办法从根本上解决这个问题。打个比方,在车队里除了大巴车,还可以再买一些中巴车、七座车等等,它们相当于性能低一些的GPU。这样可以通过不同类型车辆的组合减少座位浪费,但没办法从根本上解决这个问题——你不可能有无穷多种规格的车辆,正好每次都满足旅行团人数的需要;而且车一旦买回来,座位数就固定了,没办法动态地去进行调节。所以通过硬件的方式解决算力资源的浪费,效果是有限的。
如果想真正提高算力利用的效率,还是要通过软件的方式来解决——通过软件定义的方法,弹性的提供算力。基于软件定义的方法,就是把使用算力的调度单元从车辆级别变成座位级别,也就是之前都是用整卡来解决算力的需求,现在变成了虚拟卡。
比方我们有10个50座的大巴车,一共加起来500个座位。通过软件定义的方式,就可以把这500个座位放在一起,变成一个有500个座位的座位池子,那么不管来了多大的旅行团,都可以从座位池子里面去组装一辆刚好满足需求的虚拟汽车。这样在使用过程中,所有资源都是可以伸缩调整的,不会造成任何浪费。
所以软件定义是所有硬件成熟之后的必然趋势,包括数据中心的存储网络,现在也都是通过软件定义的方法来实现。而且在资源池里,我们还可以去配置不同品牌的车型(GPU),来实现对计算的需求。
打造国产算力生态,提供高性价比算力
趋动科技做的事情就是通过创新的下一代软件定义算力技术,来帮助客户高效利用算力资源。
我们把算力的使用和提供进行了分离,加入了一层算力池化层,相当于引入了一个中介,按照应用的需求来分配算力,最大化的使用芯片的计算能力,这种方式还能够实现远程的分离部署,比如“东数西算”。这可以给客户带来一些具体的好处,尤其是在降本增效、提升管理水平和节能减排等方面。所以我们的软件在市场上也得到了大量国内头部企业的关注和采用。
整体来说,趋动科技现在平均每年可以将AI资源利用率提高4倍,将算法工程师的人效提高50%,让客户的总体运营成本下降55%,并减少75%的用电量,可以说是以软件的形式,实现了硬件的功能。
从2019年成立以来,趋动科技一直在发展产品,从管理全球算力到连接全球算力。
我们之前谈到企业获取AI算力有两种方式,一种是自建,一种是租用。
自建初次的采购成本比较高,后续的管理成本和对企业自身的技术要求也非常高。受算力需求潮汐效应的影响,资源的利用率和弹性伸缩的能力都是非常低的。第二种就是租借算力,中小企业通常会选择这种方式,他们没有算力的所有权。这种方式的初次的采购成本相对比较低,也比较灵活。但是在后期的使用过程中,算力的单价相对比较高,同样的问题也是资源利用率比较低,长期成本也很高。
综合来看,利用率低、成本高是这两种算力获取方式面临的共同问题。所以今年我们发布了一款产品叫趋动云,利用我们在算力池化和开发训练平台领域的积累,面向企业、科研和个人的AI开发者,构建了开发和训练的服务。相比当前市场上已经有的GPU算力服务,我们主要的优势有两点,一个是低成本,一个是使用特别便捷。
首先是低成本,趋动云采用的是我们自己的算力池化软件,成本优势非常明显,同时采用按需付费,对用户来说相对成本能够下降80%;另外使用非常便捷,我们为用户提供了很多开发和训练的GUI界面,而且支持常见的开发工具。另外为用户提供了很多代码、数据集和项目管理的功能,让团队的协作开发更加高效。同时我们也构建了全球开发者的分享社区,为大家提供丰富的算法资源、高质量的数据集,还有一些验证过的预训练模型,这样能够帮助开发者快速复制、最佳实践。趋动云是真正做到了软件定义算力方式的一个AI算力池化云。