国家自然科学基金(60775037) 作品数:11 被引量:196 H指数:5 相关作者: 陈恩红 刘贵全 汪中 刘淇 林洋港 更多>> 相关机构: 中国科学技术大学 安徽省计算与通讯软件重点实验室 合肥学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 文化科学 建筑科学 电子电信 更多>>
结合二部图投影与排序的协同过滤 被引量:16 2010年 协同过滤是推荐系统中应用最为广泛的方法.提出一类基于二部图一维投影与排序相结合的协同过滤算法,文中采用结构相似进行二部图投影并利用随机游走对节点排序.该方法不仅可以防止冷启动,具有较高准确度,且可扩展性良好.另外,该算法可以避免低覆盖率造成的推荐不准确.算法可以有两类不同的实现,分别是基于项协同过滤的项排序算法和基于用户协同过滤的用户排序算法,在标准数据集MovieLens上的测试表明了算法的有效性. 刘淇 陈恩红关键词:协同过滤 排序 随机游走 数据库中全部负关联规则挖掘研究 被引量:1 2011年 数据库中关联规则信息是知识的表述形式之一,负关联规则挖掘是数据库关联信息挖掘的重要研究内容,具有广泛的应用范围。现有的挖掘方法不能获取数据库中全部的负关联规则,考虑从数据库中提取全部的负关联规则,通过(1)扫描数据库建立数据库频繁模式树DFP-tree(Database Frequent Pattern tree);(2)在精简DFP-tree的基础上获取全部极小非频繁项集ASI;(3)对ASI中极大频繁项集的向上闭包,得到全部非频繁项集;(4)在此基础上采用相关度作为规则兴趣度量之一提取负关联规则。理论和实验表明算法的正确性和效率。 李红 宗瑜 解浚源关键词:数据库 数据挖掘 负关联规则 文本分类中基于概率主题模型的噪声处理方法 被引量:8 2010年 训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。 林洋港 陈恩红关键词:噪声数据 文本分类 基于用户兴趣传播的协同过滤方法 被引量:1 2010年 推荐系统帮助用户过滤无用信息并预测其可能感兴趣的产品。在推荐系统中,协同过滤是应用最为广泛的方法之一。然而,传统的协同过滤方法是在产品维度上计算用户相似度,而且在计算相似度时无法考虑邻居用户的影响。因此,该类方法往往受到高维度、数据稀疏等问题的困扰。为此,本文提出一种基于用户兴趣传播的协同过滤方法,在兴趣维度上计算用户相似度,同时考虑了兴趣在不同用户间的传播。该方法不仅可以有效防止冷启动和数据稀疏问题,而且具有较高的预测准确度。在标准数据集MovieLens上的测试结果表明了本文算法的有效性。 高建煌 陈恩红 刘淇关键词:推荐系统 协同过滤 随机游走 一种优化初始中心点的K-means算法 被引量:149 2009年 针对K-means算法所存在的问题,提出一种优化初始中心点的算法.采用密度敏感的相似性度量来计算对象的密度,启发式地生成样本初始中心.然后设计一种评价函数——均衡化函数,并以均衡化函数为准则自动生成聚类数目.与传统算法相比,本文算法可得到较高质量的初始中心和较稳定的聚类结果.实验结果表明该算法的有效性和可行性. 汪中 刘贵全 陈恩红关键词:K-MEANS算法 基于主题概念抽取的多文档文摘方法 被引量:5 2010年 提出一种应用于多文档文摘的有效概念抽取方法。利用WordNet中词语的同义和上下义关系进行语义消歧和概念树构造,通过概念优化算法进行主题概念抽取,建立概念向量空间模型并通过最大边缘相关方法得到文摘句。采用语义概念统计来替代传统的词形统计,能更准确地提取文档中的重要信息。DUC2005的评测结果表明,该方法比传统方法能获得更好的效果。 宋宣辰 刘贵全关键词:多文档文摘 概念树 概念抽取 对象级搜索中基于图的对象排序模型(英文) 2009年 提出了一种对象级搜索中领域无关的对象排序模型.给定对象集合以及对象间的关系,根据用户输入的对象查询,该模型按照对象与查询的相关度输出一个对象的排序表.采用一个多平面的图表示对象级搜索的空间,并基于该图分别提出了对象流行度评估算法、根据查询计算相关度的算法,以及合并多个对象查询的算法.针对ACM数据集上的实验结果表明该算法是有效的,在论文推荐与合并多对象查询方面,均取得了比PaperRank更好的结果. 李梁 罗奇鸣 陈恩红关键词:WEB对象 链接分析 面向个性化服务的用户兴趣偏移检测及处理方法 被引量:5 2009年 个性化服务系统的目标是根据不同用户的兴趣喜好为不同用户提供针对性服务,其核心是建立关于用户兴趣的描述,即用户兴趣建模。然而,现实生活中用户兴趣常常发生不可预测的变化,兴趣偏移问题一直困扰着建模技术,阻碍个性化服务系统性能的进一步提高。为了寻找切实可行的方法解决兴趣偏移问题,本文针对用户兴趣建模的兴趣偏移问题进行系统的研究,着重分析了兴趣偏移的检测方法和处理机制,对时间窗口、遗忘模型、长短期模型等隐式调整方法以及主要显式检测方法和技术进行了系统评述,并在此基础上提出了针对兴趣偏移问题的进一步研究方向。 杨杰 陈恩红关键词:个性化系统 Pre-filtering based automatic composition of multi-QoS semantic web services 2012年 Zhang Peiyun Chen Enhong关键词:语义WEB服务 QOS WEB服务组合 高校管理信息系统数据仓库设计研究 被引量:5 2012年 分析了管理信息系统的现状与不足,在作者单位原有的管理系统基础之上,通过对数据仓库需求分析,提出将数据挖掘技术应用于高校管理系统中。按照数据仓库的设计准则,探讨了数据仓库的模型设计、结构设计。基于SQL Server 2005建立数据仓库,包括学生就业指导和成绩分析两个主题数据集,描述了数据仓库模型设计、结构设计。 俞兰芳 石梅关键词:管理信息系统 数据仓库