王贤
- 作品数:4 被引量:6H指数:2
- 供职机构:昆明理工大学信息工程与自动化学院更多>>
- 发文基金:云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于树结构的Deep Web数据抽取研究
- 随着网络规模在全球的迅猛发展,Internet上的Web网站以及网页的数量目前在以爆炸性的趋势增长,网上蕴藏着数量巨大的信息资料。由不同开发者开发的Web页形式与内容有很大的差异,这就造成了Web数据的异质性和缺乏结构性...
- 王贤
- 关键词:数据抽取XSLT
- 文献传递
- 基于Zipf Estimator的Deep Web最佳查询词选择被引量:2
- 2007年
- Deep Web的查询中,关键词的选择是一个关键问题。文中针对查询Deep Web中的文本数据库,对查询词的选择作出一些研究。将Zipf Estimator应用于根据查询词的频率选择词条的方法中,提出了用部分文档中的查询词的排序来得出整个文档集中查询词的排序的方法。将Zipf Estimator运用于查询词的选择,减少查询词选择时的运算量,以较少的查询次数得到较多的查询结果。测试结果证明了Zipf Estimator运用于查询词的选择可有效提高查询Deep Web中的文本数据库的效率。
- 王贤苏晓珂黄青松
- 关键词:DEEPWEBZIPFESTIMATOR
- 基于模式—区别方法聚类结构化的Deep Web源
- 2007年
- 近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。
- 陈娟王贤黄青松
- 关键词:数据整合深网
- 通过查询模式聚类结构化的Deep Web资源被引量:1
- 2006年
- 近几年,网络被在线数据库迅速地深化。在深网中,大量的资料提供了丰富的数据模式,这些模式详细说明了它们的目标领域和查询性能,因此对大规模数据的整合是当前面临的挑战。在数据挖掘中,聚类分析是一个重要方法。本文论述通过查询接口采用凝聚层次聚类方法聚类结构化的Web资源,并采用先聚类后分类的方法稍加改进。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料。
- 陈娟王贤黄青松
- 关键词:数据整合深网凝聚层次聚类