趋动科技徐景松：基础软件助力中国芯片突围(2)

为什么GPU的利用率这么低、浪费严重？简单讲，是因为大部分客户对于GPU的使用和管理颗粒度太粗，过于粗放。

我们通过类比来解释一下这个问题。现在把性能强大的 GPU 芯片比喻成大巴车，把不同的AI应用比喻成一个旅行团，把算力的使用方式比喻成运力的调度。

通常旅行团是有不同人数的，而大巴车可能有一个非常固定的规格，比如说50座的大巴车。今天最简单的算力使用方式，我们叫做使用大巴车的方式，就是不管来多大的旅游团（AI应用），我就派一辆大巴车（GPU芯片），那么肯定会浪费很多座位（算力），因为这种管理和使用方式下，一辆大巴车是一个最小的调度单元。当然，有时候会需要几辆大巴车共同来运送，自然就会造成大量的算力资源的浪费。

要解决这个问题，提高资源的利用率有很多方式。

其中一是通过硬件的方式来解决。硬件的调整可以在一定程度上缓解资源的浪费，但没办法从根本上解决这个问题。打个比方，在车队里除了大巴车，还可以再买一些中巴车、七座车等等，它们相当于性能低一些的GPU。这样可以通过不同类型车辆的组合减少座位浪费，但没办法从根本上解决这个问题——你不可能有无穷多种规格的车辆，正好每次都满足旅行团人数的需要；而且车一旦买回来，座位数就固定了，没办法动态地去进行调节。所以通过硬件的方式解决算力资源的浪费，效果是有限的。

如果想真正提高算力利用的效率，还是要通过软件的方式来解决——通过软件定义的方法，弹性的提供算力。基于软件定义的方法，就是把使用算力的调度单元从车辆级别变成座位级别，也就是之前都是用整卡来解决算力的需求，现在变成了虚拟卡。

比方我们有10个50座的大巴车，一共加起来500个座位。通过软件定义的方式，就可以把这500个座位放在一起，变成一个有500个座位的座位池子，那么不管来了多大的旅行团，都可以从座位池子里面去组装一辆刚好满足需求的虚拟汽车。这样在使用过程中，所有资源都是可以伸缩调整的，不会造成任何浪费。

所以软件定义是所有硬件成熟之后的必然趋势，包括数据中心的存储网络，现在也都是通过软件定义的方法来实现。而且在资源池里，我们还可以去配置不同品牌的车型（GPU），来实现对计算的需求。

打造国产算力生态，提供高性价比算力

趋动科技做的事情就是通过创新的下一代软件定义算力技术，来帮助客户高效利用算力资源。

我们把算力的使用和提供进行了分离，加入了一层算力池化层，相当于引入了一个中介，按照应用的需求来分配算力，最大化的使用芯片的计算能力，这种方式还能够实现远程的分离部署，比如“东数西算”。这可以给客户带来一些具体的好处，尤其是在降本增效、提升管理水平和节能减排等方面。所以我们的软件在市场上也得到了大量国内头部企业的关注和采用。

整体来说，趋动科技现在平均每年可以将AI资源利用率提高4倍，将算法工程师的人效提高50%，让客户的总体运营成本下降55%，并减少75%的用电量，可以说是以软件的形式，实现了硬件的功能。

从2019年成立以来，趋动科技一直在发展产品，从管理全球算力到连接全球算力。

我们之前谈到企业获取AI算力有两种方式，一种是自建，一种是租用。

自建初次的采购成本比较高，后续的管理成本和对企业自身的技术要求也非常高。受算力需求潮汐效应的影响，资源的利用率和弹性伸缩的能力都是非常低的。第二种就是租借算力，中小企业通常会选择这种方式，他们没有算力的所有权。这种方式的初次的采购成本相对比较低，也比较灵活。但是在后期的使用过程中，算力的单价相对比较高，同样的问题也是资源利用率比较低，长期成本也很高。

综合来看，利用率低、成本高是这两种算力获取方式面临的共同问题。所以今年我们发布了一款产品叫趋动云，利用我们在算力池化和开发训练平台领域的积累，面向企业、科研和个人的AI开发者，构建了开发和训练的服务。相比当前市场上已经有的GPU算力服务，我们主要的优势有两点，一个是低成本，一个是使用特别便捷。

首先是低成本，趋动云采用的是我们自己的算力池化软件，成本优势非常明显，同时采用按需付费，对用户来说相对成本能够下降80%；另外使用非常便捷，我们为用户提供了很多开发和训练的GUI界面，而且支持常见的开发工具。另外为用户提供了很多代码、数据集和项目管理的功能，让团队的协作开发更加高效。同时我们也构建了全球开发者的分享社区，为大家提供丰富的算法资源、高质量的数据集，还有一些验证过的预训练模型，这样能够帮助开发者快速复制、最佳实践。趋动云是真正做到了软件定义算力方式的一个AI算力池化云。

2/3 首页上一页 1 2 3 下一页尾页

趋动科技徐景松： 基础软件助力中国芯片突围

趋动科技徐景松：基础软件助力中国芯片突围