下载PDF
Altair > 实例探究 > 克莱姆森大学采用 PBS Professional 来增强 HPC 工作负载管理
Altair Logo

Clemson University's Adoption of PBS Professional for Enhanced HPC Workload Management

技术
  • 应用基础设施与中间件 - 数据可视化
  • 网络与连接 - 以太网
适用行业
  • 水泥
  • 教育
适用功能
  • 采购
  • 产品研发
用例
  • 库存管理
  • 智慧校园
服务
  • 系统集成
  • 培训
挑战
克莱姆森大学的 IT 部门克莱姆森计算和信息技术 (CCIT) 在管理快速增长的用户群的工作量方面面临着重大挑战。该部门利用 Palmetto 集群(一个 17,032 个核心、262 TFlop HPC 系统)作为该大学的主要 HPC 资源。该系统被该大学的教职员工、学生和 144 名外部用户(包括其他大学的研究人员和教职人员)大量使用。该集群以“公寓模型”运行,用户可以购买节点以供自己优先使用。然而,CCIT 之前使用的开源 Maui 调度程序无法满足其不断扩大的用户群的可扩展性和可靠性需求。系统经常崩溃,一些高级功能无法正常运行,导致调度程序不可靠。
关于客户
克莱姆森大学是一所主要的赠地、科学和工程导向的研究型大学,在全国公立大学中排名前 25 名。该大学致力于教学和学生的成功,培养一个包容、以学生为中心的社区,其特点是高学术标准、协作文化、学校精神和追求卓越的竞争动力。该大学的 IT 部门克莱姆森计算和信息技术 (CCIT) 提供网络基础设施资源和先进的研究计算能力。 CCIT 通过集成高性能计算 (HPC)、高性能网络、数据可视化、存储架构和中间件来支持一系列先进的计算基础设施。
解决方案
为了应对这些挑战,CCIT 决定采用商业级工作负载管理解决方案。在评估了多家供应商后,他们选择了 Altair 的 PBS Professional®,因为它具有强大的可扩展性和技术支持。 PBS Professional 调度软件能够满足大学的 HPC 需求,提供以前的开源工具无法处理的可靠性和可扩展性。 Altair 的技术团队提供了全面的支持,帮助 CCIT 在购买前了解 PBS Professional 的高级功能,并在安装过程前提供实践培训。成本也是决策过程中的一个关键因素。 Altair 能够提供符合 CCIT 预算的有吸引力的学术定价。 PBS Professional于2011年9月开始实施,支持1,623个节点。如今,节点数量已增加至 1,804 个,PBS Professional 可以轻松扩展以支持快速增长的用户群的更多节点。
运营影响
  • The adoption of PBS Professional has led to improved usability and productivity for CCIT and the university's users. The HPC administration overhead has been significantly reduced, and the demand for end-user support has decreased due to the immediate and automatic feedback provided by PBS Professional's hooks plug-in technology. Users can now easily submit numerous jobs, even queuing up thousands of jobs with confidence in their execution by the scheduler. The system is also integrated with Clemson’s “Hadoop on demand” job framework, which uses myHadoop with their own customized open source file system, OrangeFS. This integration has led to major efficiency benefits as PBS jobs can directly access data stored on OrangeFS from any compute node without the need for data staging, and the data persists between jobs.
数量效益
  • PBS Professional supports 1,804 nodes, up from 1,623 nodes at the time of implementation.
  • The system is scalable and can support additional nodes for the rapidly growing user base.
  • The Palmetto Cluster is benchmarked at 262 TFlops and is connected to Internet2's 100 GbE Advanced Layer 2 Service.

相关案例.

联系我们

欢迎与我们交流!

* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

Thank you for your message!
We will contact you soon.