摄像系统成像系统的决策树算法
决策树算法是一种用于分类摄像头干扰器型号和回归操作的非参数监督学习方法。在智能电网中,它被用于变压器设计、状态监测、评估、故障诊断、盗窃检测和维修[18]。决策树算法的主要目标是通过学习如何根据简单的决策规则推断数据的特征,建立一个能够预测目标变量值的模型。决策树有许多实现算法,如ID3和C4.5算法。C4.5基于ID3,它试图识别小型(或简单)决策树。C4.5决策树是归纳推理中应用最广泛、最有效的监控屏蔽器方法之一[19]。
决策树算法的目标是从训练数据集中获得一组分类规则。优化摄像头屏蔽器使用方法需要选择局部最优特征作为划分规则,通常用于进行预测。Spark提供的决策树学习阶段一般分为三个步骤:特征选择、决策树生成和决策树剪枝。具体流程如下。
1) 特征选择的准则是确定最优的局部特征并判断其对当前数据集的分类效果。根据选择特征判断数据是否分类是相当重要的。信息增益率用来衡量这种变化的幅度。当前节点分类规则的确定依赖于分割后节点数据集中类的序数纯度。衡量节点数据集纯度的方法有三种,即熵、基尼和方差。本文用熵来衡量信息的纯度,并指出信息的期望值。信息熵可定义为(13):
2) 当决策树需要分裂时,将计算每个监控干扰器属性的增益率。然后,选取最大增益率对决策树算法进行分割。决策树算法的生成过程如下所示。
输入:训练数据集D,特征值A,阈值ε.
输出:决策树T
1) 如果D中的所有实例都属于同一类Ck,那么T是一个节点树,Ck将被认为是该节点的类标记。然后,返回T。
2) 如果A=∅, 那么T是一个单节点树,D中最大的一类实例Ck将被认为是节点标记。然后,返回T。
3) 另外,根据基尼特征选择算法,计算A到D中每个特征的信息增益,选择信息增益最大的特征Ag。如果摄像头干扰器信息增益Ag小于阈值ε, 那么T是一个单节点树,D中最大的一类实例Ck将被认为是节点标记。然后,返回T。否则,根据Ag=ai(ai是Ag中的任意值),D将被划分为一些非空子集Di。然后,Di中最大的实例类将成为构建其子节点的标记。决策树T将由节点及其子节点组成;随后,返回T。
3) 另外,根据基尼特征选择算法,计算A到D中每个特征的信息增益,选择信息增益最大的特征Ag。如果摄像头干扰器信息增益Ag小于阈值ε, 那么T是一个单节点树,D中最大的一类实例Ck将被认为是节点标记。然后,返回T。否则,根据Ag=ai(ai是Ag中的任意值),D将被划分为一些非空子集Di。然后,Di中最大的实例类将成为构建其子节点的标记。决策树T将由节点及其子节点组成;随后,返回T。
4) 对于子节点i,将基于训练集Di、特征集A获得子树Ti−{以及(1)到(3)的递归过程。