日前,KDD2021论文录取结果出炉,今年共有1541篇有效投稿,其中238篇论文被接收,接收率为15.44%,相比KDD2020的接收率16.9%有所下降。深兰科技的论文《AutoSmart: An Efficient and Automatic Machine Learning framework for Temporal Relational Data》,通过全自动特征工程、多表合并、模型调整和资源控制,用AutoSmart框架为时序相关的表数据提供了高效的自动机器学习解决方案,并被KDD2021录用。
此前,深兰科技还多次在国际顶级学术期刊/会议上发表论文,包括以自适应的集成学习方法为主要内容的《Winning solutions and post-challenge analyses of the ChaLearn AutoDL challenge 2019》被计算机视觉及模式识别领域的顶级期刊TPAMI 2021收录,以空气质量预测为主题的论文《AccuAir: Winning Solution to Air Quality Prediction for KDD Cup 2018》被KDD 2019 ADS track录取为Oral Paper等。
关于KDD
ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。自 1995 年以来,KDD 已经连续举办了26届,今年将于2021年8月14日至18日在新加坡举办。
论 文 解 读
概述
时序相关的表数据,是工业机器学习应用程序中最常用的数据类型之一,需要劳动密集型的特征工程和数据分析才能提供精确的模型预测。因此,自动机器学习框架可以大大减少手动调优的工作量,以便专家可以将更多精力放在真正需要人类参与的其他问题上,例如问题定义,部署和业务服务。但是,建立时序相关表数据的自动机器学习框架存在三个主要挑战:如何有效、自动地从多个表中挖掘有用的信息以及它们之间的关系;如何使框架自我调整,并在一定预算内控制时间和内存消耗;如何为各种任务提供通用解决方案。
在这项工作中,深兰科技提出了一种解决方案,以端到端的自动方式成功解决了上述问题。论文中提出的框架AutoSmart基于深兰科技在KDD Cup 2019中AutoML Track冠军方案,这是迄今为止最大的AutoML竞赛之一((860支团队,约4,955份参赛作品)。该框架包括自动数据处理、表合并、特征工程和模型调整,并带有时间和内存控制器,可高效、自动地制定模型。论文所提出的框架在各个领域的多个数据集上均明显优于基准解决方案。