江苏省重点实验室开放基金(KJS03064) 作品数:8 被引量:54 H指数:4 相关作者: 吉根林 韦素云 曲维光 杜长海 高洁 更多>> 相关机构: 南京师范大学 苏州大学 石家庄经济学院 更多>> 发文基金: 江苏省重点实验室开放基金 国家自然科学基金 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
分布式环境下约束性关联规则的快速更新 被引量:1 2006年 研究分布式环境下约束性关联规则更新问题,包括数据库中事务增加和删除2种情况.引入向导集的概念,提出基于全局局部模式的约束性关联规则增量式更新算法DUCAR,其中包括局部约束性频繁项目集更新算法ULFC和全局约束性频繁项目集更新算法UGFC.该算法充分利用原先的挖掘结果提高更新效率,首先从最高维的频繁n项目集进行更新,在更新过程中考虑约束条件,结合剪枝算法,生成较少数量的满足约束条件的候选项目集.将该算法用Java加以实现,采用多组数据对此算法的性能进行测试,并与其他算法作对比实验,实验结果表明,该算法是高效可行的. 吉根林 韦素云关键词:关联规则 项约束 分布式数据挖掘 一种增量式Bayes文本分类算法 被引量:6 2004年 文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 . 高洁 吉根林关键词:文本分类 BAYES 基于粗集方法入侵检测系统中的安全规则的挖掘 被引量:3 2005年 针对入侵检测系统中安全规则提取的困难,该文提出了利用粗集方法从系统日志审计信息中挖掘安全规则,并给出了规则挖掘算法。通过KDDCUP1999入侵数据测试集中的数据验证了该方法的有效性和可行性,为入侵检测中安全规则的提取提供了一种新方法。 武志峰 陈冬霞 吉根林关键词:网络安全 入侵检测 粗集方法 数据挖掘 一种基于签名的XML查询算法 1引言随着XML应用范围的扩展以及XML信息的日益普及,对XML信息处理的能力也提出了更高的要求。如何实现高效的XML查询处理也因此成为人们关注的研究课题。 陈冬霞 吉根林 武志峰关键词:XML SIGNATURE 文献传递 最小支持度变化时分布式数据库中频繁项目集更新 2005年 讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题,提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS.该算法能够充分利用已挖掘的结果,并且产生较少数量的候选频繁项目集,在求解全局频繁项目集过程中,候选局部频繁项目集支持数的通信量为O(n).将文章提出的算法用Java加以实现,并对算法性能进行了研究.实验结果表明这些算法是可行、有效的,并且具有较快的速度. 吉根林 赵斌分布式系统中离群数据间相似性挖掘 1引言离群数据(outlier)是指明显偏离其它数据、不满足数据一般模式或行为、与存在的其它数据不一致的数据。离群数据通常有两种:一种来源于测量错误、计算机录入错误等,这些离群数据的发现有助于纠正错误数据,从而提高数据分... 吉根林 孙志挥文献传递 基于聚类的模糊关联规则挖掘 1引言关联规则具有多种类型,其中包括数值型关联规则,其基本思想是将数值型属性进行离散化,从而将问题转换为类别型关联规则挖掘问题。但是数值型属性离散化存在着锐利边界值问题,即在挖掘过程中,区间的边界值要么过分强调,要么被忽... 韦素云 吉根林 杨明关键词:CLUSTERING 文献传递 模糊聚类在中文文本分类中的应用研究 被引量:9 2006年 将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。 杜长海 吉根林关键词:模糊聚类 文本分类 贴近度 基于平行坐标的关联规则可视化新技术 被引量:8 2005年 详细讨论了用于关联规则可视化的几种常用技术,分析了各自的优缺点。提出了关联规则可视化的一种新方法ARVir,该方法巧妙地利用平行坐标技术的思想,对原有的可视化技术进行改进,能够解决当前关联规则可视化技术中普遍存在的界面紊乱、产生歧义等多种问题。利用Java3D技术实现了基于ARVir的关联规则可视化系统原型,实验表明该系统不仅能够有效地显示大量关联规则,而且用户可以给定约束条件对挖掘结果进行过滤。 吉根林 韦素云 曲维光关键词:关联规则 可视化 数据挖掘 分布式决策树算法研究与实现 被引量:3 2005年 提出了一种基于分布多库环境下的决策树生成算法DDTA(D istributed D ecision Tree A lgorithm).该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性.实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的.与算法INDUS相比,该算法的通信代价小. 戴南 吉根林关键词:决策树