卡内基梅隆大学计算机科学学院(SCS)的一名学生利用强化学习来帮助控制核聚变反应,这是利用核聚变产生的巨大能量作为清洁、丰富能源的重要一步。
机器学习系博士生伊恩·查尔(Ian Char)在圣地亚哥的DIII-D国家聚变设施使用强化学习控制托卡马克装置的氢等离子体。他是第一个在受欢迎的机器上进行实验的CMU研究员,第一个使用强化学习来影响托卡马克等离子体的旋转,也是第一个在美国最大的运行托卡马克机器上尝试强化学习的人。查尔与普林斯顿等离子体物理实验室(PPPL)合作进行这项工作。
“强化学习影响了等离子体的压力和旋转,”查尔说。“这真的是我们在这里的第一个大事件。”
核聚变发生在氢原子核相互碰撞或融合时。这一过程释放了大量的能量,但要将其维持在电网供电所需的水平仍然具有挑战性。氢原子核只有在极高的温度和压力下才能聚变,比如在太阳中心,核聚变自然发生。物理学家也在热核武器中实现了核聚变,但这些都不是有用的能源。
另一种产生核聚变的方法是利用磁场在所需的温度和压力下容纳氢等离子体以聚变核。这个过程发生在托卡马克内部鈥攁 一种利用磁场将氢等离子体限制在圆环形状的大型机器。容纳等离子体并保持其形状需要对磁场和额外氢粒子爆炸进行数百次微操作。
世界上很少有大型托卡马克可以促进这类研究,而且在它们上运行实验的时间令人垂涎。DIII-D国家聚变设施是美国唯一一个运行的设施。
谷歌母公司Alphabet的人工智能子公司DeepMind是第一家使用强化学习来控制包含聚变反应的磁场的公司。实验室成功地保持了等离子体的稳定,并将其雕刻成不同的形状。DeepMind在瑞士洛桑对可变构型托卡马克(TCV)进行了实验,并在2月的《自然》杂志上发表了研究结果。
Char是第一个在DIII-D进行类似强化学习实验的人。强化学习使用来自过去尝试的数据来实现最佳结果。在Char的实验中,强化学习算法检查了历史和实时数据,以改变和控制等离子体的旋转速度,以寻求最佳稳定性。
当额外的氢粒子被射入时,等离子体甜甜圈旋转。改变这些喷射粒子的速度可以潜在地稳定等离子体,并使其更容易控制。Char在实验中使用了两种学习算法。在其中一项研究中,他使用了托卡马克多年来收集的数据来训练它了解等离子体如何反应。第二种算法观察等离子体的状态,然后决定以何种速率和方向射入附加粒子以影响其速度。
“短期目标是为物理学家提供工具,使其产生这种差异旋转,以便他们能够进行实验,使这种等离子体更加稳定,”机器人研究所的研究教授、查尔的博士顾问杰夫·施奈德(Jeff Schneider)说。“从长远来看,这项工作显示了一条使用强化学习来控制等离子体状态的其他部分的路径,并最终实现足够长的温度和压力,以拥有一座发电厂。这意味着每个人都可以获得无限的清洁能源。”
Char去年将该项目提交给了DIII-D,这是一个由通用原子公司管理的美国能源部科学办公室用户设施,并于6月28日获得了运行其算法的三个小时的时间。Char坐在大型DIII-D设施的控制室中,在操作员的包围下,加载了他的算法。
查尔证明他的算法可以控制等离子体的旋转速度。这是第一次使用强化学习来控制旋转。控制会话期间出现了一些问题,需要进行更多的测试。查尔于8月底返回DIII-D继续他的工作。
普林斯顿大学机械和航空航天工程系副教授埃格曼·科勒曼(Egemen Kolemen)说:“伊恩表现出了巨大的能力,能够消化聚变装置特定的控制问题和强调这一点的等离子体物理。”。“将他在CMU学到的理论应用于真正的聚变问题,并在国家聚变设施上进行实验,这是一个巨大的成就。这项工作通常需要多年的等离子体物理和工程培训。”