姚立
- 作品数:3 被引量:10H指数:2
- 供职机构:江南大学物联网工程学院更多>>
- 发文基金:江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主题模型的改进随机森林算法在文本分类中的应用被引量:7
- 2017年
- 针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。
- 姚立张曦煌
- 关键词:主题模型文本分类
- 一种基于标签的改进主题演化模型
- 2019年
- 传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。
- 姚立张曦煌
- 关键词:标签
- MapReduce环境下处理多类别不平衡数据的改进随机森林算法被引量:3
- 2018年
- 针对传统MapReduce环境下的随机森林算法在处理多类别不平衡数据问题时仍然以全局最优点作为划分点,忽略了少数类对分类准确率的影响,文本提出了一种MapReduce环境下处理多类别不平衡数据的改进随机森林算法(MR-RF-SHDSE).该算法利用分层采样方法在各个类别中进行样本抽样,并以HDDT决策树作为基学习器以弱化数据偏置给分类准确率带来的影响,最后计算决策树的GMean值和不合度值,利用调和平均值作为衡量标准对决策树进行选择集成.通过实验证明,相比其他算法,MR-RF-SHDSE能够有效提高了对多类别不平衡数据集的分类准确率.
- 姚立张曦煌
- 关键词:MAPREDUCE