下载PDF
Altair > 实例探究 > 优化计算性能:南洋理工大学案例研究
Altair Logo

Optimizing Compute Performance: A Case Study on Nanyang Technological University

技术
  • 基础设施即服务 (IaaS) - 混合云
  • 网络与连接 - 以太网
适用行业
  • 教育
  • 半导体
适用功能
  • 维护
  • 产品研发
用例
  • 智慧校园
  • 时间敏感网络
服务
  • 云规划/设计/实施服务
挑战
南洋理工大学的高性能计算中心 (HPCC) 面临着重大挑战。 HPCC 拥有超过 4,500 个 CPU 核心、40 个 NVIDIA Tesla GPGPU 卡、2,700TB 存储、100GB InfiniBand 互连以及 40G/100G 以太网主干网和技术支持,在 2021 年生产了近 1900 万个核心 CPU 小时和近 300,000 个 GPU 小时,以支持超过 160 名南洋理工大学研究人员。 HPCC数字社区已发展到近800名NTU会员,并且随着其队伍的不断增加,HPC和AI应用的数量也在快速增长。 HPCC 的四名工程师小型团队需要尖端工具来支持其不断增长的用户社区并评估扩展到混合云环境的情况。他们需要作业级别的洞察力来了解运行时问题,I/O、CPU 和内存指标来识别瓶颈,并能够检测有问题的应用程序和不良 I/O 模式(可能导致共享存储过载)的恶意作业。
关于客户
新加坡南洋理工大学 (NTU) 是一所研究密集型公共机构,为工程、科学、商业和人文、艺术、社会科学和医学领域的约 33,000 名学生和 10,000 名教职员工提供支持。南洋理工大学是世界上最负盛名的大学之一,也是新加坡最古老的大学之一,拥有全国最大的校园,占地近 500 英亩。南洋理工大学的高性能计算中心(HPCC)成立于2010年,旨在支持大学大规模、数据密集型的计算需求,并且对资源的需求不断增长。
解决方案
为了应对这些挑战,HPCC 团队部署了 Altair Mistral 来分析应用程序 I/O,并确定优化 NTU HPC 的最有效选项。他们使用三种不同类型的存储测量了流行的高斯化学应用程序的性能:本地 NVMe、第 1 层横向扩展全闪存 NAS 和带 SSD/HDD 的第 2 层横向扩展 NAS。 Mistral 根据多个参数测量应用程序的作业运行特性,包括读取和写入计数、读取和写入字节、内存使用情况、处理时间和 I/O 延迟。这些指标揭示了每种存储类型的优点和缺点。通过使用 Mistral 进行 I/O 分析,NTU 的 HPCC 团队现在可以找到最适合应用程序要求的节点,并为不同的应用程序类型确定最实惠、性能最佳的存储,并了解哪些最适合云和本地存储。场所基础设施。
运营影响
  • As a result of using Mistral, the HPCC team at NTU Singapore determined that a hybrid architecture with different storage media and a good L3 cache could be more performant and cost-effective than focusing only on a single storage medium, especially if the OS can utilize the various strengths of each medium. They plan to continue to collect metrics for additional applications and perform more tuning and optimization to support education and research. The HPCC team is happy with Mistral’s results and with Altair. The Senior Assistant Director of the High Performance Computing Centre at NTU, Melvin Soh Hwee Jin, praised Altair for their personal and professional support for customers.
数量效益
  • Local NVMe was fastest, completing the job in 32,208s.
  • Tier 2 scale-out NAS with SSD/HDD finished second with 34,326s.
  • Last was tier 1 scale-out all-flash NAS at 40,746s.

相关案例.

联系我们

欢迎与我们交流!

* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

Thank you for your message!
We will contact you soon.