张云
- 作品数:4 被引量:39H指数:3
- 供职机构:西安交通大学电子与信息工程学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种编辑距离算法及其在网页搜索中的应用被引量:17
- 2008年
- 针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.
- 薛晔伟沈钧毅张云
- 关键词:网页搜索字符串匹配
- 蚁群-遗传融合的文本聚类算法被引量:17
- 2007年
- 针对蚁群算法容易出现停滞现象而不能对解空间进行全面搜索的问题,提出了一种蚁群-遗传融合的文本聚类算法.该算法将影响蚁群算法性能的4个参数作为遗传算法中的染色体进行编码,基于此又设计出相应的适应度函数以及选择交叉变异算子,通过多次迭代找出最优的参数组合,并将其应用到文本聚类问题上.经与经典的k均值聚类算法、基本的蚁群聚类算法的仿真比较,结果表明所提出算法的聚类效果更好,在3个测试集上的F度量值要比k均值聚类算法分别提高5.69%、48.60%、69.60%,所以更适合于处理较大规模的数据集.
- 张云冯博琴麻首强刘连梦
- 关键词:蚁群算法遗传算法文本聚类
- 网页特征获取方法及其在网页搜索中的应用(英文)被引量:1
- 2008年
- 针对大规模网页相关性排序工作中使用的多来源网页信息形式多样、利用困难的问题,提出了一种新的自动网页特征获取方法.该方法利用一组事先定义好的规则自动地从网页中获取相关性特征,这些特征可以有效地表达网页的实际内容并改善搜索引擎的排序性能.该方法所获取的网页相关性特征具有格式统一、噪声数据少的特点,能够非常方便地应用于网页的相关性排序.为了评价网页特征和用户查询之间的相关性,还提出了一个特征级别的相关性判定标准.最后,实验结果证明了所提出的特征获取方法和特征相关性等级判定标准对于提升搜索引擎的排序性能具有显著的作用.
- 薛晔伟沈钧毅张云鲍军鹏
- 关键词:网页搜索
- 利用标签的层次化搜索结果聚类方法被引量:6
- 2009年
- 为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.
- 张云冯博琴
- 关键词:搜索结果聚类词共现