刘忠宝 作品数:87 被引量:338 H指数:10 供职机构: 中北大学软件学院 更多>> 发文基金: 国家自然科学基金 山西省自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 天文地球 航空宇航科学技术 更多>>
基于分类超平面的非线性集成学习机 被引量:2 2013年 针对支持向量机面临的大规模数据分类问题,提出基于分类超平面的非线性集成学习机NALM。该方法借鉴管理学中协同管理的思想,将大规模数据分成规模较小的子集,然后分别在子集上运行分类超平面算法,最后将各子集上的分类结果进行非线性集成得到最终的分类结果。该方法不仅继承了分类超平面的优点,而且还将分类超平面的适用范围从小规模数据扩展到中大规模数据,从线性空间推广到Hilbert核空间。若干数据集上的实验表明:NALM能以较少的支持向量来解决大规模样本分类问题。 刘忠宝 赵文娟 师智斌关键词:支持向量机 分类超平面 大规模数据 一种改进的线性判别分析算法在人脸识别中的应用 被引量:6 2011年 线性判别分析算法是一种经典的特征提取方法,但其仅在大样本情况下适用。本文针对传统线性判别分析算法面临的小样本问题和秩限制问题,提出了一种改进的线性判别分析算法ILDA。该方法在矩阵指数的基础上,重新定义了类内离散度矩阵和类间离散度矩阵,有效地同时提取类内离散度矩阵零空间和非零空间中的信息。若干人脸数据库上的比较实验表明了ILDA在人脸识别方面的有效性。 刘忠宝关键词:线性判别分析 人脸识别 大数据分析下终端用户信息快速获取仿真研究 被引量:2 2018年 对终端用户信息的快速获取,能够有效提高大数据下用户信息处理效率。对大数据分析下终端用户信息获取,需要建立用户信息的数据预处理模型,去除终端用户信息中存在的噪声,完成用户信息的快速获取。传统方法对下近似的计算方法进行了重新定义,并对快速获取模型进行探讨,但忽略了对用户信息中噪声的滤除,导致信息获取效率偏低。提出终端用户信息快速获取方法。根据科尔莫戈罗夫多项式建立用户信息的数据预处理模型,去除终端用户信息中存在的噪声,提高快速获取结果的准确性,采用贝叶斯定理计算终端用户信息的特征,根据信息特征快速的完成获取,提高了方法的获取效率。仿真证明,上述方法可以在较短的时间内准确的完成终端用户信息的快速获取。 杨捷 师智斌 刘忠宝关键词:大数据 终端用户 基于熵理论和核密度估计的最大间隔学习机 被引量:3 2011年 该文针对支持向量机(SVM)及其变种的不足,提出一种基于熵理论和核密度估计的最大间隔学习机MLMEK。MLMEK引入了核密度估计和熵的概念,用核密度估计表征样本数据的分布特征,用熵表征分类的不确定性。MLMEK真实反映样本数据的分布特征;同时解决两类分类问题和单类分类问题;比传统SVM具有更好的分类性能。UCI数据集上的实验验证了MLMEK的有效性。 刘忠宝 王士同关键词:模式识别 熵理论 核密度估计 支持向量机 基于句法依存分析的事件角色填充研究 被引量:4 2017年 【目的/意义】事件角色填充是浅层语义分析的一种方法,文章研究的目的是将句中与核心词有依存关系的句法成分进行标注,确定其在事件框架中充当的角色类型,为语义检索提供依据。【方法/过程】通过对语义框架和语法知识的介绍,提出了基于句法依存分析的角色填充思路和技术。【结果/结论】通过"灾难场景"框架下的"森林火灾"事件为例,用最大熵算法对填充过程进行了说明,例证了方法的有效性。 赵文娟 刘忠宝 王永芳关键词:依存分析 语义标注 事件抽取 云环境下创新创业在线教育平台建设 被引量:2 2017年 近年来,创新创业教育受到广泛关注。为了实现优质教育资源共享,创新创业在线教育平台建设刻不容缓。借鉴全球兴起的大规模公开在线课程最新研究成果,综合利用教育学、信息技术等学科相关理论和方法来构建创新创业在线教育平台。该平台建成后可整合已有创新创业教育资源,并为学习者提供智能化的在线学习环境。创新创业在线教育平台对于提高创新创业教育资源的利用率以及应用型人才培养质量具有现实意义。 刘忠宝 马巧梅 杨秋翔 宋文爱 孔祥艳 李宏艳关键词:创新创业 在线教育平台 基于深度学习模型的摘要结构功能识别方法研究 被引量:6 2021年 【目的/意义】学术文献的摘要由目的、方法、结果等结构组成,这些结构具有特定的功能。目前,针对摘要功能结构识别的研究不多,且存在识别效率不高的问题,本文引入双向循环神经网络(Bidirectional Recurrent Neural Network, BiRNN)、双向长短时记忆网络(Bidirectional Long Short Term Memory, BiLSTM)、BiLSTM-CRF、BERT等深度学习模型,对1232篇情报类期刊论文进行摘要结构功能识别研究。【方法/过程】引入5折交叉验证法进行多次实验,以避免一次实验的偶然性;实验结果用"均值±标准差"形式表示,同时考虑模型的平均性能和稳定性;实验结果用F1值进行评价。【结果/结论】与BiRNN、BiLSTM、BiLSTM-CRF等模型相比,BERT模型具有最高的均值和最低的标准差,这表明该模型不仅具有最优的结构功能识别能力,而且性能稳定,该模型特别适用于摘要结构功能识别任务。【局限/创新】本文采用的实验语料规模较小且为人工标注,这限制了识别效率的提升。 刘忠宝 刘忠宝 张志剑关键词:条件随机场 基于最大散度差的保序分类算法 2017年 分类算法主要存在问题:(1)无法充分利用样本的分布特征;(2)无法保持样本的相对关系不变;(3)无法解决大规模分类问题。对此,提出了一种基于最大散度差的保序分类算法RPCM,该方法利用线性判别分析算法中的类间离散度和类内离散度来表征样本的分布特征,通过保持各类样本中心相对关系不变来实现样本相对关系不变。理论分析表明:RPCM的对偶形式与最小包含球等价。在核心向量机的基础上提出了RPCM-CVM算法,该算法可用来解决大规模分类问题,标准数据集上的比较实验验证了所提方法的有效性。 郝伟 刘忠宝关键词:最大散度差 类内离散度 新型支持向量机在风速预测模型中的应用研究 被引量:5 2014年 在短期风速预测方面支持向量机已被广泛应用并取得较好的效果。然而,随着应用的深入,其逐渐暴露出两大问题:一,对噪声较为敏感;二,未能充分利用样本已有信息。为进一步提高支持向量机的泛化能力,该文提出模糊流形支持向量机FMSVM。该方法引入模糊技术,保证不同样本区别对待,减少或消除噪声的影响;充分利用流形判别分析的性质,进一步改进支持向量机,在分类决策时同时考虑样本的边界信息、分布特征以及局部流形结构。通过某风场风速数据集上的比较实验验证该方法的有效性。 刘忠宝关键词:支持向量机 风速预测 基于核向量机的大规模用户分类方法研究 被引量:1 2015年 针对信息推送技术面临的难题:从用户访问的大规模记录中发现用户兴趣以及将兴趣相同或相近的用户归为一类,在L2型支持向量机的基础上提出基于核向量机的大规模用户分类方法。该方法首先通过获取大规模页面集合的核心集实现样本规模约简,然后利用L2-SVM对核心集进行训练,进而得到大规模用户分类结果。真实数据集上的实验表明了该方法的有效性。 刘忠宝关键词:信息推送 用户分类