查字典论文网 >> 基于不均衡样本重构的加权在线贯序极限学习机

基于不均衡样本重构的加权在线贯序极限学习机

小编:

摘要:针对现有学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题,提出一种基于不均衡样本重构的加权在线贯序极限学习机。该算法从提取在线贯序数据的分布是否用特征更恰当?这里主要想表达提取数据内在的分布规律,还是觉得用特性好一些。特性入手,主要包括离线和在线两个阶段:离线阶段主要采用主曲线构建少类样本的可信区域,并通过对该区域内样本进行过采样,来构建符合样本分布趋势的均衡样本集,进而建立初始模型;而在线阶段则对贯序到达的数据根据训练误差赋予各样本相应权重,同时动态更新网络权值。采用UCI标准数据集和澳门实测气象数据进行实验对比,结果表明,与现有在线贯序极限学习机(OSELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOSELM)相比,所提算法对少类样本的识别能力更高,以澳门气象数据为例,所提算法对少类样本的预测精度分别比其他三种算法提高了22.87%、25.76%和22.42%,且所提算法的模型训练时间与其他三种算法相差不大。结果表明在不影响算法复杂度的情况下,所提算法能有效提高少类样本的分类精度。

关键词:样本重构;极限学习机;主曲线;过采样;不均衡数据

中图分类号: TP181 文献标志码:A

英文摘要

Abstract:Many traditional machine learning methods tend to get biased classifier which leads to low classification precision for minor class in imbalanced online sequential data. To improve the classification accuracy of minor class, a new weighted online sequential extreme learning machine based on imbalanced samplereconstruction was proposed. The algorithm started from exploiting distributed characteristics of online sequential data, and contained two stages. In offline stage, the principal curve was introduced to construct the confidence region, where oversampling was achieved for minor class to construct the equilibrium sample set which was consistent with the sample distribution trend, and then the initial model was established. In online stage, a new weighted method was proposed to update sample weight dynamically, where the value of weight was related to training error. The proposed method was evaluated on UCI dataset and Macao meteorological data. Compared with the existing methods, such as Online SequentialExtreme Learning Machine (OSELM), Extreme Learning Machine (ELM)and MetaCognitive Online Sequential Extreme Learning Machine (MCOSELM), the experimental results show that the proposed method can identify the minor class with a higher ability. Moreover, the training time of the proposed method has not much difference compared with the others, which shows that the proposed method can greatly increase the minor prediction accuracy without affecting the complexity of algorithm.

英文关键词

Key words:samplereconstruction; Extreme Learning Machine (ELM); principal curve; oversampling; imbalanced data

0 引言

综上可知,单独考虑数据层面或者算法层面,均难以有效解决不均衡在线贯序数据的分类问题。不难发现,提取在线贯序数据的分布特性是解决该问题的关键所在。为此,本文同时从数据策略和算法策略入手,通过引入主曲线提取在线数据的分布特性,并在此基础上改进SMOTE方法,提高对少类样本的过采样质量;同时引入动态加权的思想,提出一种基于不均衡样本重构的加权在线贯序极限学习机(Imbalanced Samplereconstruction Weighted Online Sequential Extreme Learning Machine,ISWOSELM);最后采用UCI标准数据集和实际的澳门气象数据验证了该方法的有效性。

1 相关工作

1.1 在线贯序极限学习机

极限学习机(Extreme Learning Machine,ELM)[7]是一种单隐层前馈神经网络。该算法随机挑选输入层参数,直接利用MoorePenrose广义逆,即可求得最小L2范数的输出层权重。整个学习过程只有隐神经元个数可调,结构简单,具有非常快的学习速度和优秀的泛化能力。在线贯序极限学习机是在原始ELM算法的基础上提出的在线增量式快速学习算法。由文献[8]可知,算法步骤分为两个阶段:

步骤1 初始化阶段。

2 不均衡样本重构加权在线贯序极限学习机

为减少少类样本合成过程中的盲目性,提高其分类精度,本文同时从数据和算法两个角度出发,提出一种基于不均衡样本重构的加权在线贯序极限学习机算法,主要分为离线和在线两个阶段。

2.1 离线阶段

初始离线阶段,通过改进SMOTE算法,对不均衡样本重构,并建立初始模型。其基本思想是首先采用主曲线构建少类样本的可信区域,得到种子样本,再分别对每个种子样本,采用所改进的SMOTE算法生成虚拟样本,同时判断其可信度;考虑到样本的离散度,引入类中心和类平均距离的概念,进一步对虚拟样本筛选进而得到均衡的样本集,最后建立初始训练模型。

定义1 类中心(class center)[10]是指某类样本在数据空间的平均中心点。类中心点c是与样本维数相同的请核实,c是否为向量为黑斜。c为黑斜向量,计算方法如下所示:

c=1n∑ni=1x是否黑?xi表示向量,为黑。xi(4)

定义2 类平均距离(class average distance)[10]是指某类中各样本到类中心距离和的平均值,是一标量。该距离d能够反映出类的距离程度,值越小类距离程度越紧,反之较松散。计算方法如下所示:

d=1n∑ni=1D(xi, c)(5)

其中函数D(・)表示欧氏距离计算方法。

步骤1 生成种子样本。

3 仿真实验与分析

3.1 UCI标准数据集

选择两个标准数据集Blood和Abalone来进行仿真实验。

离线阶段,采用改进SMOTE算法对数据预处理,得到均衡的样本集,见表1。

给定隐层激活函数为中英全径向基函数(Radial basis function, RBF)核函数,隐层节点分别为25、45,运行30次取均值,四种模型的性能如表2和表3所示。

3.2 澳门气象数据

在空气质量监测等实际问题中,数据往往具有在线序列到达的特点,且空气质量良好的天数远远大于空气严重污染的天数,因此是一种典型的不均衡在线贯序问题。由于采集数据的局限性,本文采用澳门气象局网站上公布的空气质量数据[11]进行仿真实验。

分别以每个种子样本为中心,生成虚拟样本并筛选,最终得到均衡的初始训练样本集。使用改进SMOTE算法前后2010年的样本数目如表4。

由表4可知,经改进SMOTE算法处理之后,两类样本的数据比近似于1∶1,从而解决了离线阶段的数据不均衡问题。

利用处理后的均衡离线样本集,建立初始模型。给定隐层激活函数为RBF核函数,对2011的数据进行在线贯序训练。图6和图7分别为随隐层节点个数变化,ISWOSELM、MCOSELM、OSELM和ELM的训练精度和测试精度的变化。

设定隐节点个数为30,分别用ISWOSELM、OSELM、ELM和MCOSELM四种算法对气象数据进行仿真实验,表5为四种算法运行30次所得结果的平均性能比较。

从表5中可以看出,尽管ISWOSELM对多类样本的识别率略有下降,总体测试精度也未达到最佳,但其少类训练精度和测试精度均明显优于其他三种算法,其中少类测试精度分别比其他三种算法提高了22.87%、25.76%和22.42%,因而大大减少了少类样本的误判率。从另一个方面来说,ELM和OSELM多类测试精度明显较高,恰恰表明直接对类别严重不均衡的样本分类,分类面更加偏向于少类样本,从而造成多类样本分类效果的“虚假”提升。是否应为图6和图7?图6和图7中,随隐层节点变化,四种算法的图形均有一定程度的波动,这是ELM本身的随机性所致。但不难发现,较其他三种算法,ISWOSELM的图形波动相对较小,表现出良好的稳健性。从表5可以看出,ISWOSELM的训练时间与其他三种算法接近,但少类的测试精度明显提高,由此可以看出,在不增加算法时间复杂度的前提下,ISWOSELM对少类样本的识别率更高,更适合于不均衡在线贯序数据的分类问题。 4 结语

本文提出了一种基于不均衡样本重构的加权在线贯序极限学习机,继承了OSELM算法在线、快速学习的特点,通过引入主曲线提取数据的分布特性,减少了少类样本合成过程的盲目性,在不影响算法计算复杂度的情况下,明显提高了少类样本的分类精度,对解决实际气象问题具有重要的理论和工程意义。但本文所提算法有一定的局限性,主要针对典型的二分类问题,对多分类不均衡问题并未很好解决。因此,完善并改进该算法,是下一步研究的方向。

参考文献:

热点推荐

上一篇:基于密文策略属性加密体制的匿名云存储隐私保护方案

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文