廖欣
- 作品数:3 被引量:10H指数:2
- 供职机构:四川大学华西妇产儿童医院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于改进Tri-Training算法的健康大数据分类模型研究被引量:2
- 2017年
- Tri-Training是半监督协同训练的代表性算法之一,它运用统计技术标记置信度,并结合噪音学习理论进行无标记样本分类。当扩充样本训练集不满足噪音学习理论时,会进行随机采样,针对传统Tri-Training算法随机选取基础分类器的扩充训练样本集会引入噪声这一缺陷,通过更改扩充样本训练集选取方式,剔除可能提高分类误差的样本。在健康大数据集上进行一系列验证试验,实验结果表明,改进的算法优于原始算法,降低分类错误率。
- 唐校辉廖欣陈雷霆陈文昭
- 关键词:分类误差
- 基于改进贝叶斯网络的健康大数据分类模型被引量:3
- 2017年
- 贝叶斯网络是数据挖掘领域的研究热点,它是一种确定事物间不确定性依赖关系的有效工具。本文研究传统贝叶斯网络结构学习算法的优点和不足,并针对原算法的不足之处提出了改进。将改进后的算法应用于健康大数据集上,确定了数据集中各个健康属性之间的依赖关系,建立了相关属性依赖关系的网络结构。最终运用该网络结构对数据集中的数据进行自动分类。实验结果表明,本文基于贝叶斯网络建立的健康大数据分类模型具有良好的性能,实现了预期效果。
- 梁聪廖欣郑欣陈雷霆
- 关键词:贝叶斯网络
- 面向健康大数据的数据清洗技术被引量:5
- 2017年
- 提出一套完整的健康大数据清洗方案。首先剔除原始数据集中的重复数据,然后,对数据集进行完整性、有效性及一致性验证,最后,使用基于密度的改进孤立点检测算法剔除局部孤立点及全局孤立点。为验证所提方案的有效性,使用Tri-training算法在健康大数据集上进相关实验。实验表明,所提数据清洗方案能够同时识别局部孤立点和全局孤立点,从而显著提高后续数据分类模型的性能。
- 陈永红廖欣郑欣陈雷霆
- 关键词:数据清洗孤立点检测