推荐文章

当前位置: 学院首页>>学科建设>>学术交流>>正文
学院开展2021-2022学年第一学期教师科研报告会
2021-10-24 17:40  

2021年10月20日,计算机科学与技术学院岳珊老师在学院会议室给计科学院全体教师带来了一场精彩的科研报告。 

QQ图片20211021111055

报告中,岳珊老师给全体教师介绍了AdaBoost算法与随机森林算法的具体内容及两种算法在实际问题中的应用。 

(1)AdaBoost算法: 

AdaBoost算法是一种集成算法,其核心思想是针对同一个训练集反复学习得到一系列分类器(子分类器),每个弱分类器都具有分类能力,但是对最终的分类结果的影响力不同(权值不同),每个弱分类器通过加权后得到强分类器(总分类器)。它的特点是:在每一次迭代时,弱分类器错误分类的样本权值会增大,正确分类的样本权值会减小,权值变更后的样本用来训练下一个弱分类器。 

AdaBoost算法可以解决的科学问题是:已知N个样本数据,每个样本数据具有M个输入属性,N个样本数据的标签值。根据样本数据建立AdaBoost分类算法模型,可以找到属性值和标签值之间的关系,之后对于新的任意第k个样本数据,都可以推算出该样本所属的类别(分类标签值)。 

AdaBoost分类算法在实验中拟解决的问题:已知600个样本(学生),每个样本具有2个输入属性(英语成绩和数学成绩),每个样本对应的分类标签值分别是1为文科生、2为理科生和3位综合生。通过已知的样本特征值和其对应的标签值找到样本属性值和标签值的关系,从而对于任意K个新的样本都可以利用该样本所具有的属性值算出该样本所属的类别。 

(2)随机森林算法 

随机森林分类算法是一种Bagging集成学习算法,当一棵决策树无法很好地对待样本进行分类时,采用多棵决策树对待样本进行分类。该分类算法从给定训练集中有放回的均匀抽取多组样本,每组样本建立一棵决策树,进而形成一个森林(由多棵不同的决策树构成),森林中的每棵决策树都会生成一个分类结果,接着将多个分类结果进行投票统计,得票最多的分类即为最终的分类结果。 

随机森林分类算法可以解决的科学问题是:已知有N个样本数据,每个样本数据均具有M个输入属性,N个样本的分类标签值。根据样本数据建立随机森林分类模型,可以找到样本属性和样本分类标签值之间的关系,之后对于新的任意第t个样本数据,都可以推算出该样本所属的类别(分类标签值)。 

随机森林分类算法在实验中拟解决的问题:已知N个样本(学生),每个样本具有M个输入属性(英语成绩和数学成绩),每个样本对应的分类标签值分别是1为文科生、2为理科生和3位综合生。通过建立随机森林分类模型,可以找到样本属性和样本分类标签值之间的关系,从而对于任意第t个新的样本都可以根据样本属性推算出样本的分类标签值。 

上述问题都使用Python语言应用相关算法得以实验,实验结果正确,解决了预先设定的实验问题,证明该算法在实际问题中可以取得良好的应用效果,与会老师们积极学习交流,收益良多。 

关闭窗口