下载PDF
Altair > 实例探究 > PBS Professional 管理南半球最大超级计算机 NCI Raijin 的工作负载
Altair Logo

PBS Professional Manages Workload for NCI Raijin, Largest Supercomputer in Southern Hemisphere

技术
  • 应用基础设施与中间件 - 事件驱动型应用
  • 传感器 - 温度传感器
适用行业
  • 建筑与基础设施
  • 公用事业
适用功能
  • 维护
  • 产品研发
用例
  • 施工管理
  • 库存管理
服务
  • 系统集成
  • 培训
挑战
澳大利亚国家计算基础设施 (NCI) 运营着南半球最大的超级计算机 Raijin。超级计算机可处理各种规模和完成时间各异的作业类型。面临的挑战是确保整体系统平衡、可扩展性能和高质量的用户体验。架构和子系统需要随着软件和硬件的扩展而扩展,以保护应用程序性能。 NCI 需要一种高度可扩展、灵活且可靠的产品,能够满足其计算需求的规模和复杂性。 NCI 之前运营一个内部 OpenPBS 系统,该系统具有本地定制的调度程序和相关的会计系统来管理其资源。然而,维护该系统的开发和支持变得越来越困难,导致 NCI 开始研究 Raijin 工作负载管理器的新选项。
关于客户
国家计算基础设施 (NCI) 是澳大利亚的国家研究计算服务。它为澳大利亚研究人员提供世界一流的高端服务,包括先进的计算和数据密集型方法、支持和高性能基础设施。 NCI 支持基于计算的研究,特别关注环境、气候和地球系统科学。自 2007 年以来,NCI 的基础设施投资超过 8000 万美元,由澳大利亚政府根据其国家合作研究基础设施战略 (NCRIS) 和超级科学计划提供。 NCI 运营着 Raijin,这是澳大利亚最大的超级计算机,也是世界排名前 30 的系统之一。
解决方案
NCI 在多个工作负载管理和集群管理产品之间进行了完整的系统“烘烤”。经过严格的选择过程后,NCI 选择 Altair 的 PBS Professional 作为其工作负载管理系统。 Altair 的 PBS Professional 在性能和灵活性方面均优于竞争对手。 Altair 需要提供替代补助金管理和会计系统,以便与 Raijin 系统和其他 NCI 资源灵活集成。 Altair 和 NCI 在烘烤期间合作开发了这一新的会计系统。 PBS Professional 还必须与 NCI 选择的 OneSIS 集群管理软件集成,以管理集群节点和其他富士通硬件。 Altair Professional Services 负责编写和集成大部分基本替换功能,然后在模拟负载、系统管理和组件故障条件下进行测试,以确保系统可用于生产。
运营影响
  • PBS Professional is now in production on Raijin’s 57,472 Intel Sandy Bridge cores, connected by Mellanox FDR and a 9 PByte Lustre filesystem for scratch space. The system is regularly accessed by over 1000 users, with applications that comprise a very broad range of scientific application areas and packages, including both open source and licensed products. PBS Professional manages workload for these applications and, via the plugin extension system, provides functionality such as local and distributed job scratch spaces, software licenses and resource placement. In addition, the new PBS Professional accounting system is being used to manage computational, storage and cloud resources across the entire NCI facility. PBS Professional has also been installed on NCI’s OpenStack Cloud system, to be available in the future for a broader range of use cases that may not fit the standard time-shared/centrally managed system model for the current clusters.
数量效益
  • Raijin, the supercomputer managed by PBS Professional, has 57,472 Intel Sandy Bridge cores.
  • The system is regularly accessed by over 1000 users.
  • PBS Professional manages workload for a broad range of scientific application areas and packages.

相关案例.

联系我们

欢迎与我们交流!

* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

Thank you for your message!
We will contact you soon.