返回顶部
返回首页
返回首页
home 您现在的位置: 首页 >工业机器人>高端访谈 > 详细信息
使用机器学习自动调整流式数据处理系统的资源配置
2023年01月11日    阅读量:20     新闻来源:中国机器人网 vrovro.com    |  投稿

当连续生成大量数据时,数据可以被比作一股水流。各种数据(包括应用程序、联网设备、服务器日志文件、各种在线活动和基于位置的数据)可以形成一个连续的流。我们称这种形式的数据处理为流数据。

在流式数据中,可以实时收集、管理、存储、分析各种类型的数据源并提供信息。对于动态新数据不断生成的大多数场景,采用流式数据处理是有益的,这适用于大多数行业和大数据用例。

流数据处理系统用于分析流数据。已有许多流数据处理系统被公司广泛使用,如Apache Flink、Apache Storm、Spark Streaming和Apache Heron。这些流数据处理应用程序的特点是部署量大,应用程序的运行时间长(几个月甚至几年),而且每个应用程序运行的数据都不同,因此即使是小的性能改进也会为公司带来巨大的经济效益。

为了提高系统性能,需要调整资源配置参数,以指定任务中使用的CPU内核和内存等资源量。但是,为流数据处理应用程序选择关键配置参数并找到它们的最佳值非常具有挑战性,手动调整这些参数非常耗时。

对于一个未知的应用程序,对流数据处理系统有深入了解的性能工程师可能需要几天甚至几周的时间才能找到最佳的资源配置。

为了解决上述问题,研究人员已经开始应用机器学习方法进行研究。一项研究发表在《智能计算》上。作者使用Apache Flink程序作为实验流数据处理应用程序。

机器学习方法用于自动和有效地调整流数据处理应用程序的资源分配参数。它应用随机森林算法为流数据处理程序建立一个高度精确的性能模型,该程序输出应用程序的尾部延迟或吞吐量,将输入数据的速度和关键配置参数作为输入。此外,机器学习方法利用贝叶斯优化算法(BOA)迭代搜索高维资源配置空间以实现最佳性能。

实验表明,该方法显著提高了第99百分位尾部延迟和吞吐量。本研究中提出的方法是一种独立于Flink系统的参数调整工具,可以集成到其他流处理系统中,如Spark Streaming和Apache Storm。

标签:高端访谈工业机器人机器人机器人应用技术中心今日头条配件与装备热点排行人工智能市场评论通用机器人系统及软件行业资讯
免责声明: 本文仅代表作者本人观点,与中国机器人网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识