近期,由新濠峰娱乐
袁晓涵博士为第一作者完成的一篇针对高度类不平衡数据分类问题的研究论文 “A clustering-based adaptive undersampling ensemble method for highly unbalanced data classification”被中国科学院1区Top期刊《Applied Soft Computing》接收并发表。
类不平衡数据分类问题在许多实际应用中都非常常见和重要,比如医疗诊断、金融欺诈检测、网络入侵检测等。过高的不平衡率会显著降低不平衡学习的分类性能。然而,现有的高度类不平衡数据分类方法仍然面临两个关键难点:(1)难以公平学习不同类中关键信息,(2)难以保持样本分布的一致性。针对这些困难,我们提出了一种新的基于多数类样本聚类的自适应欠采样增强集成分类方法CAU2Ensemble,该方法融合了欠采样和集成技术。在自适应欠采样过程中,我们首先考虑多数类样本的空间分布以确保分布一致性。然后我们考虑自适应采样率并引入反馈机制以从每个聚类簇中获得更具代表性的多数类样本。在分类器集成过程中,引入多次集成迭代以实现对不同类中关键信息的公平关注。最后,在来自多个领域的17个真实的高度类不平衡数据集上进行了六种实验。实验结果表明,所提出的方法在有效性、鲁棒性和适应性方面均优于现有方法。
图1 CAU2Ensemble框架图
《Applied Soft Computing》是一个国际性高质量学术期刊,专注于软计算方法及其在各个领域中的应用。软计算是一类能够处理不确定性、模糊性和复杂问题的方法,主要技术包括神经网络、模糊逻辑、进化计算、集成学习等。该期刊涵盖的数据挖掘、图像处理、优化问题、控制系统、机器人技术、生物信息学和金融工程等广泛应用领域,致力于发表高质量的研究论文,推动软计算理论的发展及其实际应用。2024年,该期刊升为中国科学院1区Top期刊,其影响因子为8.7。