在国家启动“东数西算”工程的大背景下,算力成为数字经济的底层逻辑。如何将多元算力优势结合,为更多行业的数字化发展提供源源不断的动力,成为提升算力基础设施能力的重要课题。云计算、AI算力作为多元算力的重要组成,强大的计算速度与优化的算法为数字经济发展提供有力保障,也将发挥日益重要的作用 ,实现普惠普世的价值 。同时 ,云原生和AI正在显现更多关联,越来越多的AI应用基于容器构建。
合作伙伴介绍
北京趋动科技有限公司于2019年成立 于北京中关村高新技术园区,拥有专业的研发、运营和服务团队,已完成国高新 、北京市“ 专精特新 ”、中关村高新等企业认证,并被评为 WISE2020「新基建创业榜 」最具成长性创业公司 TOP20、「REAL 100创新家」、「2021创 业邦100未来独角兽」等。
业务挑战
GPU资源利用率低:无虚拟化或资源池化方案,独占模式使用GPU,整体使用率 低下。
资源调度不灵活:缺乏统一的算力资源管理,无法支持资源的快速动态分配,快速响应业务的需求变化
监控运维难:缺乏全面监控,无法准确掌握资源利用率和健康状况
用户管理难:多租户下,难以科学合理的分配资源,难以确保数据安全
环境搭建难:深度学习对算力 、数据 、框架的复杂要求,导致配置环境需要付出大量时间精力
解决方案
趋动科技的OrionX AI算力资源池化解决方案帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之 上的AI加速器。OrionX不但能够帮助用户提高AI算力资源利用率,而且可以极大便利用户AI应用的部署。OrionX通过软件定义AI算力,颠覆了原有的AI应用 直接调用物理GPU的架构,增加软件层, 将AI应用与物理GPU解耦。AI应用调用逻辑的OrionX vGPU,再由OrionX将 OrionX vGPU需求匹配到具体的物理 GPU。OrionX架构实现了GPU资源池 化,让用户高效、智能、灵活地使用GPU 资源,达到了降本增效的目的。
安超云原生一体机是裸金属服务器融合云原生引擎、分布式存储和软件定义网 络,面向敏捷化业务交付场景,打造一站式交付和开箱即用的云原生基础设施。 趋动科技的OrionX AI算力资源池化方案可以完美的和安超云原生一体机结合,形成生成就绪、软硬协同、智能运维的一体化解决方案,帮助客户快速构建 AI算力资源池 + AI应用管理平台。
方案成果
深度融合:安超云的云原生产品和趋动的OrionX深度融合,将GPU资源池化方案作为一个可选组件,用户按需部署使 用。
池化管理,灵活调度:支持GPU池化管理及运维,为运维人员提供直观的资源利用率等信息;GPU按照算力和显存双维度申请GPU资源,提高资源利用率;支持 CPU/GPU的解耦合,实现远程调用 GPU,最大化数据中心基础设施价值;聚合数据中心内部碎片化的GPU资源,化零为整。快速调整GPU/CPU配比和多机多卡模型拆分问题,快速搭建环境,提高工作效率。
高性能:相比于物理GPU设备,本地调用性能损耗基本为零,远程调用性能损耗 基本维持在2%左右。
安全隔离:GPU资源隔离,用户无需担心并行运行的业务之间存在干扰。同时结合安超云的云管能力可配置租户使用GPU资源的限额,保障多业务并行稳定进行。