中央高校基本科研业务费专项资金(CDJXS11181164)
- 作品数:5 被引量:18H指数:2
- 相关作者:冯永张洋陈显勇唐黎李宾飞更多>>
- 相关机构:重庆大学教育部中国科学技术大学更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金重庆市高等教育教学改革研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 结合匹配度和语义相似度的Deep Web查询接口模式匹配被引量:1
- 2012年
- 查询接口模式匹配是Deep Web信息集成中的关键部分,双重相关性挖掘方法(DCM)能有效利用关联挖掘方法解决复杂接口模式匹配问题。针对DCM方法在匹配效率、匹配准确性方面的不足,提出了一种基于匹配度和语义相似度的新模式匹配方法。该方法首先使用矩阵存储属性间的关联关系,然后采用匹配度计算属性间的相关度,最后利用语义相似度计算候选匹配的相似性。通过在美国伊利诺斯大学的BAMM数据集上进行实验,所提方法与DCM及其改进方法比较有更高的匹配效率和准确性,表明该方法能更好地处理接口之间模式匹配问题。
- 冯永张洋
- 关键词:DEEPWEB匹配度语义相似度
- 视觉与标签信息的Deep Web查询页面内容提取被引量:1
- 2012年
- 提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析'视觉属性'树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。
- 冯永唐黎
- 关键词:DOM树CSS样式
- 基于概念间边权重的概念相似性计算方法被引量:9
- 2012年
- 介绍了传统的基于距离的相似度计算方法,针对其在距离计算中包含语义信息不充足的现状,提出了一种改进的使用WordNet的基于概念之间边的权重的相似性度量方法。该方法综合考虑了概念在词库中所处层次的深度和密度,即概念的语义丰富程度,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题。实验结果表明,所提方法在Rubenstein数据集上与人工判断有着0.910 9的相关性,与其他经典的相似性计算方法相比有着更高的准确性。
- 冯永张洋
- 关键词:概念相似度计算WORDNET语义信息
- 基于lazy方法的数量型关联分类被引量:1
- 2013年
- 传统关联分类方法处理数量型数据时,"先离散,再学习"的步骤使新的测试样例可能无法找到合适的离散区间,形成离散盲目性问题。基于lazy的数量型关联分类作为一种新的关联分类法,它首先利用K-近邻分类思想为测试样例求得K-近邻作为新的训练数据集,然后对包含测试样例和K个近邻的数据集离散化,并在K-近邻组成的离散数据集上挖掘关联规则并构造分类器进行分类。最后,通过与传统CBA、CMAR、CPAR算法在7个常用UCI数量型数据集上进行的对比实验结果表明,基于lazy的数量型关联分类方法的平均分类准确率提高了0.66%~1.65%,证明了该方法的可行性。
- 李学明李宾飞杨涛付萌
- 关键词:数据挖掘关联规则K-近邻
- 基于评分信息量的协同过滤算法研究被引量:6
- 2013年
- 传统的协同过滤算法中,依靠用户评分大小计算用户间相似度,但是评分数据稀疏性使相似度计算不够准确。针对此问题,提出了基于评分信息量的相似度计算方法;在推荐系统中项目有多种可选评分,该方法将参与评分的用户数量转换为评分信息量,以此结合用户评分大小计算相似度。实验结果表明,相对于传统协同过滤算法,该方法在一定程度上减少了评分数据稀疏性带来的负面影响,有效地提高了预测评分准确性。
- 冯永陈显勇
- 关键词:相似度协同过滤