国家自然科学基金(60473115)
- 作品数:19 被引量:132H指数:7
- 相关作者:陆玉昌鲁明羽马占欣蒋望东林士敏更多>>
- 相关机构:清华大学周口师范学院大连海事大学更多>>
- 发文基金:国家自然科学基金山东省自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 基于选择性集成遗传算法的BNC结构学习被引量:1
- 2006年
- 为克服K2算法在处理贝叶斯网络分类器(BayesianNetworkClassifier,BNC)结构学习中要求先指定适合节点次序的缺点,提出GA-K2算法,将基于选择性集成的整数编码遗传算法引入到K2算法中,使之能得到最佳节点次序并且网络结构收敛到全局最优.构建贝叶斯网络分类器进行分类,实验结果表明GA-K2算法优于随意指定节点顺序的K2算法.
- 蒋望东林士敏鲁明羽
- 关键词:贝叶斯网络分类器K2算法遗传算法
- 基于潜在语义差异的医学网页聚类被引量:2
- 2008年
- 采用潜在语义索引的全局模型和局部模型表示医学网页时,模糊聚类结果的类间包含度很大。该文提出一种新的潜在语义差异模型,将医学网页中的文本抽取出来并分别采用全局模型、局部模型和差异模型进行表示,利用FCM算法进行聚类并计算类间包含度。实验发现,对给定的5类医学网页进行聚类时,采用差异模型时的类间包含度平均约为全局模型的85%、局部模型的80%。
- 米晓芳秦洋王立宏宋宜斌
- 关键词:潜在语义索引文本挖掘FCM聚类包含度
- 面向网页分类的网页摘要方法被引量:6
- 2006年
- 网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.
- 鲁明羽沈抖郭崇慧陆玉昌
- 关键词:网页分类CONTENTBODY
- 基于最小提升率的正负关联规则挖掘被引量:8
- 2007年
- 给出了提升率的概念,并阐述了提升率的意义和作用。提出了基于支持度-提升率的正负关联规则挖掘模式。实验表明,采用该模式进行正负关联规则挖掘,所挖掘出的规则数量少,质量高,无虚假规则和相互矛盾的规则。
- 马占欣周文刚陆玉昌
- 关键词:负关联规则置信度提升率
- 中文网页分类研究与系统实现被引量:20
- 2007年
- 近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
- 段军峰黄维通陆玉昌
- 关键词:中文网页分类特征抽取
- 对最小置信度门限的置疑被引量:7
- 2007年
- 在关联规则挖掘中,通常使用最小支持度和最小置信度两个门限来衡量一条规则是不是一个强规则。本文对最小置信度这个参数的实际意义,从理论和实践上进行了分析研究和探讨,发现使用最小置信度进行限制不仅所挖掘出的规则质量较低,还有可能遗漏一些具有重要价值的规则,进一步提出提升率比置信度更能反映实际情况,在关联规则挖掘中改用最小支持度和最小提升率作为衡量准则,其结论更加准确,意义也更明确。
- 马占欣王新社黄维通陆玉昌
- 关键词:数据挖掘关联规则兴趣度置信度提升率
- 相关度计算方法存在的问题及修正被引量:15
- 2007年
- 相关度是关联规则挖掘中衡量一条规则是否有趣的重要的参数。该文通过对传统的相关度计算公式的分析,指出了传统计算方法存在不对称性和不完备性两个缺陷,提出了提升率和影响率两个概念。通过理论分析和实验验证,证明了采用提升率和影响率两个参数来描述相关度与传统的描述方法相比,结果更加准确可靠。
- 马占欣黄维通陆玉昌
- 关键词:关联规则相关度提升率
- 数值离散化中粒度熵与分类精度的相关性被引量:5
- 2008年
- 研究离散化方案中断点数、粒度熵与分类精度之间的关系,证明了粒度熵随着断点数的增加而下降。设计了一种混合型的数值离散化算法来提供多种相容离散决策表。实验发现:粒度熵和分类精度之间的相关程度有时高于断点数和分类精度之间的相关程度。
- 王立宏孙立民孟佳娜
- 关键词:粒度熵离散化断点粗集
- 负关联规则挖掘中的频繁项集爆炸问题被引量:13
- 2007年
- 为了解决负关联规则挖掘中包含负项目的频繁项集数量爆炸问题,引入过频繁项集的概念,证明过频繁项集及其所有超集均不可能产生有趣的关联规则。在频繁项集生成过程中,必须对项集中包含负项目的个数进行限制。使用最小支持度、最大支持度、项集中最多包含负项目的个数2个参数来约束频繁项集生成过程的算法。实验结果表明:所增加的2个参数是必要的,特别是当数据集中所包含的项目个数比较多时,只有恰当地设置2个额外参数,才能够保证挖掘过程的正常进行。
- 马占欣陆玉昌
- 关键词:信息处理数据挖掘负关联规则
- 面向循证医学网络文献的SVM分类方法被引量:2
- 2008年
- 支持向量机(support vector machine,SVM)是在统计学习理论基础上发展起来的一种新的机器学习方法,是一种高效的分类识别方法。首先分析支持向量机原理,然后提出一种使用Bagging组合学习方法改进SVM算法的网页分类方法。基于循证医学网络文献分类的实验表明,该方法使训练数据规模大大减小,且比传统的SVM算法分类性能更好,具有较好的精确率和召回率。
- 甘新玲鲁明羽唐焕玲李永
- 关键词:循证医学网页分类支持向量机核函数