下载PDF
How one company went from 28% GPU utilization to 73% with Run:ai
技术
- 分析与建模 - 机器学习
- 应用基础设施与中间件 - API 集成与管理
适用行业
- Software
- 电信
适用功能
- 产品研发
- 商业运营
用例
- 预测性维护
- 计算机视觉
服务
- 数据科学服务
- 系统集成
挑战
该公司是面部识别技术领域的全球领导者,但在 GPU 利用率方面面临诸多挑战。由于 GPU 资源的静态分配,他们无法在团队和项目之间成功共享资源,从而导致瓶颈和无法访问的基础设施。缺乏对可用资源的可见性和管理,导致他们的工作进度变慢。尽管现有硬件的利用率很低,但可见性问题和瓶颈使得他们似乎需要额外的硬件,从而导致成本增加。该公司正在考虑额外的 GPU 投资,计划的硬件购买成本超过 100 万美元。
关于客户
客户是一家跨国公司,在面部识别技术领域处于世界领先地位。他们为许多大型企业提供 AI 服务,通常是实时的。准确度(以最大限度地提高摄像头分辨率和 FPS 的性能、面部密度和视野来衡量)对公司及其客户至关重要。他们拥有一个本地环境,其中有 24 台 Nvidia DGX 服务器和额外的 GPU 工作站,以及一支由 30 名研究人员组成的团队,分布在两个大洲。
解决方案
该公司实施了 Run:ai 平台来应对挑战。该平台将团队从静态、手动 GPU 分配转移到整个组织的池化、动态资源共享,从而提高了 GPU 利用率。它还通过硬件抽象、简化的工作流程和自动化的 GPU 资源分配提高了数据科学团队的生产力。该平台提供了对 GPU 集群、其利用率、使用模式、等待时间等的可视性,使公司能够更好地规划硬件支出。此外,它还通过自动化、动态的资源分配加快了训练时间,使数据科学团队能够显著更快地完成训练过程。
运营影响
数量效益
相关案例.
Case Study
Vodafone Hosted On AWS
Vodafone found that traffic for the applications peak during the four-month period when the international cricket season is at its height in Australia. During the 2011/2012 cricket season, 700,000 consumers downloaded the Cricket Live Australia application. Vodafone needed to be able to meet customer demand, but didn’t want to invest in additional resources that would be underutilized during cricket’s off-season.
Case Study
SKT, Construction of Smart Office Environment
SK T-Tower is the headquarters of SK Telecom. Inside the building, different types of mobile devices, such as laptops, smartphones and tablets, are in use, and with the increase in WLAN traffic and the use of quality multimedia data, the volume of wireless data sees an explosive growth. Users want limitless Internet access in various places in addition to designated areas.