下载PDF
Autonomous Vehicle Company Wayve Ends GPU Scheduling ‘Horror’
技术
- 分析与建模 - 机器学习
适用行业
- 汽车
适用功能
- 产品研发
- 离散制造
用例
- 机器状态监测
- 自主运输系统
服务
- 云规划/设计/实施服务
- 数据科学服务
挑战
Wayve 是一家总部位于伦敦的公司,致力于开发自动驾驶汽车的人工智能软件,该公司在 GPU 资源方面面临着巨大挑战。他们的车队学习循环(在部署到车队之前,连续进行数据收集、整理、模型训练、重新模拟和授权模型)消耗了大量的 GPU 资源。然而,尽管几乎 100% 的 GPU 资源都分配给了研究人员,但资源利用率却不到 45%。这是因为 GPU 是静态分配给研究人员的,这意味着当研究人员不使用分配给他们的 GPU 时,其他人无法访问它们。这造成了一种假象,即用于模型训练的 GPU 已满负荷,而实际上许多 GPU 处于闲置状态。
关于客户
Wayve 是一家总部位于伦敦的公司,正在开发用于自动驾驶汽车的人工智能软件。该公司独特的自动驾驶技术方法不依赖于昂贵的传感设备。相反,Wayve 专注于开发更强大的智能,以便在人口密集的城市地区实现更好的自动驾驶。该公司的主要 GPU 计算消耗来自车队学习循环生产训练。他们使用完整数据集在多个时期内训练产品基线,并在通过车队学习循环迭代收集新数据时不断重新训练。
解决方案
Wayve 向 Run:ai 寻求 GPU 资源和调度问题的解决方案。Run:ai 实施了一个系统,该系统消除了孤岛并消除了资源的静态分配。他们创建了共享 GPU 池,使团队能够访问更多 GPU、运行更多工作负载并提高生产力。Wayve 研究人员每天都会向系统提交作业,无论团队如何,当 GPU 可用时,作业就会由 Run:ai 系统排队并自动启动。Run:ai 的专用批处理调度程序在 Kubernetes 上运行,支持管理 DL 工作负载的关键功能,例如高级排队和配额、管理优先级和策略、自动抢占、多节点训练等。这使得集群利用率超过 80%,并且运行的作业数量显著增加。
运营影响
数量效益
相关案例.
Case Study
Integral Plant Maintenance
Mercedes-Benz and his partner GAZ chose Siemens to be its maintenance partner at a new engine plant in Yaroslavl, Russia. The new plant offers a capacity to manufacture diesel engines for the Russian market, for locally produced Sprinter Classic. In addition to engines for the local market, the Yaroslavl plant will also produce spare parts. Mercedes-Benz Russia and his partner needed a service partner in order to ensure the operation of these lines in a maintenance partnership arrangement. The challenges included coordinating the entire maintenance management operation, in particular inspections, corrective and predictive maintenance activities, and the optimizing spare parts management. Siemens developed a customized maintenance solution that includes all electronic and mechanical maintenance activities (Integral Plant Maintenance).
Case Study
Monitoring of Pressure Pumps in Automotive Industry
A large German/American producer of auto parts uses high-pressure pumps to deburr machined parts as a part of its production and quality check process. They decided to monitor these pumps to make sure they work properly and that they can see any indications leading to a potential failure before it affects their process.