返回顶部
返回首页
返回首页
home 您现在的位置: 首页 >人工智能 > 详细信息
超级计算中心数据集旨在加速人工智能研究,优化高性能计算系统
2023年01月09日    阅读量:20     新闻来源:中国机器人网 vrovro.com    |  投稿

2019年,当麻省理工学院林肯实验室超级计算中心(LLSC)发布其TX-GAIA超级计算机时,它为麻省理工大学社区提供了将人工智能应用于研究的强大新资源。麻省理工学院的任何人都可以向该系统提交一份工作,该系统每秒进行数万亿次操作,训练各种应用的模型,如在医学图像中发现肿瘤、发现新药或模拟气候效应。但是,伴随着这种强大的力量,以可持续的方式管理和运营它的巨大责任也随之而来鈥攁团队正在寻找改进的方法。

“我们有这些强大的计算工具,可以让研究人员建立复杂的模型来解决问题,但它们基本上可以被用作黑匣子。其中的问题是,我们是否真的尽可能有效地使用了硬件,”LLSC的研究科学家Siddharth Samsi说。

为了深入了解这一挑战,LLSC在过去一年中一直在收集TX-GAIA使用的详细数据。超过一百万个用户工作之后,该团队向计算社区发布了数据集开源。

他们的目标是让计算机科学家和数据中心运营商更好地了解数据中心优化的途径鈥攁随着处理需求的不断增长,这是一项重要任务。他们还看到了在数据中心本身利用人工智能的潜力,通过使用数据开发预测故障点、优化作业调度和提高能效的模型。虽然云提供商正在积极优化其数据中心,但他们通常不会让更广泛的高性能计算(HPC)社区利用其数据或模型。此数据集和相关代码的发布旨在填补这一空白。

“数据中心正在发生变化。我们有一个爆炸式的硬件平台,工作负载的类型正在演变,使用数据中心的人的类型正在变化,”LLSC的高级研究员Vijay Gadepally说。“到目前为止,还没有一种很好的方法来分析对数据中心的影响。我们认为,这项研究和数据集是朝着提出一种有原则的方法迈出的一大步,以了解这些变量如何相互作用,然后应用人工智能进行洞察和改进。”

描述数据集和潜在应用的论文已被多个场所接受,包括IEEE高性能计算机体系结构国际研讨会、IEEE国际并行和分布式处理研讨会、计算语言学协会北美分会年会、IEEE高性能计算体系结构国际讨论会、IEEE计算语言协会北美分会、IEEE计算语言学国际会议、,IEEE高性能和嵌入式计算会议,以及高性能计算、网络、存储和分析国际会议。

工作量分类

在世界500强超级计算机中,TX-GAIA将传统计算硬件(中央处理单元或CPU)与近900个图形处理单元(GPU)加速器相结合。这些NVIDIA GPU专门用于深度学习,这类人工智能已经催生了语音识别和计算机视觉。

数据集包括CPU、GPU和内存使用情况(按作业);调度日志;以及物理监测数据。与类似的数据集(如谷歌和微软的数据集)相比,LLSC数据集提供了“标记数据、各种已知的人工智能工作负载以及比以前的数据集更详细的时间序列数据。据我们所知,它是可用的最全面和细粒度数据集之一,”Gadepaly说。

值得注意的是,该团队以前所未有的详细程度收集了时间序列数据:每个GPU上的间隔为100毫秒,每个CPU上的间隔是10秒,因为机器处理了3000多个已知的深度学习作业。第一个目标之一是使用这个标记的数据集来描述不同类型的深度学习作业在系统上的工作负载。该过程将提取特征,揭示硬件处理自然语言模型与图像分类或材料设计模型的不同。

该团队现在发起了麻省理工学院数据中心挑战,以调动这项研究。这项挑战邀请研究人员使用人工智能技术,以95%的准确率识别运行的作业类型,使用他们标记的时间序列数据作为基本事实。

这些洞察可以使数据中心更好地将用户的工作请求与最适合的硬件相匹配,从而潜在地节约能源并提高系统性能。对工作负载进行分类还可以让操作员快速发现由硬件故障、低效数据访问模式或未授权使用导致的差异。

选择太多

如今,LLSC提供了一些工具,让用户提交作业并选择他们想要使用的处理器,“但这是用户的大量猜测,”Samsi说。“有人可能想使用最新的GPU,但可能他们的计算实际上并不需要它,他们可以在CPU或低功耗机器上获得同样令人印象深刻的结果。”

东北大学的Devesh Tiwari教授正在与LLSC团队合作,开发能够帮助用户将工作负载与适当硬件匹配的技术。Tiwari解释说,不同类型的AI加速器、GPU和CPU的出现让用户面临太多选择。如果没有适当的工具来利用这种异构性,他们就失去了好处:更好的性能、更低的成本和更高的生产率。

“我们正在弥补这一能力差距鈥攎Tiwari说:“让用户更高效,帮助用户更好更快地进行科学研究,而不必担心管理异构硬件。我的博士生李宝林(Baolin Li)正在构建新的功能和工具,以帮助HPC用户在无需用户干预的情况下,利用基于贝叶斯优化和其他基于学习的优化方法的技术,近乎最佳地利用异构性。”。但是,这只是一个开始。我们正在寻找在我们的数据中心引入异构性的方法,以有原则的方式帮助我们的用户自主且经济高效地实现异构性的最大优势。”

工作负载分类是通过数据中心挑战提出的许多问题中的第一个。其他包括开发人工智能技术以预测作业故障、节约能源或创建作业调度方法,以提高数据中心冷却效率。

节能

为了动员对绿色计算的研究,该团队还计划发布TX-GAIA操作的环境数据集,其中包含机架温度、功耗和其他相关数据。

研究人员表示,提高用于人工智能处理的高性能计算机系统的功率效率存在巨大的机会。作为一个例子,LLSC最近的工作确定,简单的硬件调整,例如限制单个GPU可以汲取的功率,可以将训练AI模型的能量成本降低20%,而计算时间仅略有增加。“这一减少转化为仅增加三个小时的家庭能源的大约一周价值,”Gadepaly说。

他们还开发了预测模型精度的技术,以便用户能够快速终止不太可能产生有意义结果的实验,从而节约能源。数据中心挑战将共享相关数据,使研究人员能够探索其他节能机会。

该团队预计,从这项研究中吸取的经验教训可以应用于美国国防部运营的数千个数据中心。

其他合作者包括麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员。Charles Leiserson教授的超级技术研究小组正在研究并行计算的性能增强技术,研究科学家Neil Thompson正在设计研究如何促使数据中心用户采取气候友好行为。

Samsi在去年春天的首届数据中心优化人工智能(ADAPT'22)研讨会上介绍了这项工作,作为IEEE国际并行和分布式处理研讨会的一部分。研讨会正式向HPC社区介绍了他们的数据中心挑战。

萨姆西说:“我们希望这项研究将使我们和其他运行超级计算中心的人能够更好地响应用户的需求,同时降低中心层面的能耗。”。

这篇文章是由麻省理工学院新闻(web.MIT.edu/newoffice/)提供的,该网站是一个热门网站,涵盖了有关麻省理工研究、创新和教学的新闻。

标签:服务与娱乐机器人机器人今日头条配件与装备热点排行人工智能市场评论通用机器人系统及软件行业资讯
免责声明: 本文仅代表作者本人观点,与中国机器人网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识