您的位置: 专家智库 > >

教育部科学技术研究重点项目(104236)

作品数:9 被引量:190H指数:5
相关作者:马少平张敏刘奕群路晶王灿辉更多>>
相关机构:清华大学北京交通大学更多>>
发文基金:教育部科学技术研究重点项目国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇期刊文章
  • 2篇会议论文

领域

  • 11篇自动化与计算...

主题

  • 6篇信息检索
  • 3篇图像
  • 3篇中文
  • 3篇中文信息
  • 3篇网络信息
  • 3篇网络信息检索
  • 3篇计算机
  • 3篇计算机应用
  • 2篇信息处理
  • 2篇中文信息处理
  • 1篇多类分类
  • 1篇多类分类器
  • 1篇引擎
  • 1篇映射
  • 1篇用户
  • 1篇用户行为
  • 1篇用户行为分析
  • 1篇日志
  • 1篇日志分析
  • 1篇数据清理

机构

  • 11篇清华大学
  • 1篇北京交通大学

作者

  • 10篇马少平
  • 6篇张敏
  • 3篇金奕江
  • 3篇刘奕群
  • 3篇王灿辉
  • 3篇路晶
  • 2篇茹立云
  • 1篇赵乐
  • 1篇余慧佳
  • 1篇宋涛
  • 1篇岑荣伟
  • 1篇杨磊
  • 1篇黄宇
  • 1篇齐伟

传媒

  • 3篇计算机研究与...
  • 3篇中文信息学报
  • 2篇智能系统学报
  • 1篇广西师范大学...

年份

  • 5篇2007
  • 5篇2006
  • 1篇2005
9 条 记 录,以下是 1-10
排序方式:
基于概念索引的图像自动标注被引量:12
2007年
在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.一个新的解决方法是按照图像的语义内容进行自动标注.为了缩小语义差距,采用基于支持向量机(SVM)的多类分类器为空间映射方法,将图像的底层特征映射为具有一定高层语义的模型特征以实现概念索引,使用的模型特征为多类分类的结果以概率形式组合而成.在模型特征组成的空间中,再使用核函数方法对关键词进行了概率估计,从而提供概念化的图像标注以用于检索.实验表明,与底层特征相比,使用模型特征进行自动标注的结果F度量相对提高14%.
路晶马少平
关键词:图像自动标注多类分类器空间映射
基于非内容信息的网络关键资源有效定位被引量:4
2007年
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.
刘奕群张敏马少平
关键词:网络信息检索
基于数组的桶排序算法被引量:14
2007年
经典桶排序算法以链表形式实现“桶”,处理均匀数据效率很高,是O(N)算法.但对极不均匀数据则退化成低效的O(N2)插入排序.讨论了记录携带附加数据的计数排序算法,将“桶”实现为顺序数组,避免链表的动态内存分配直接提高算法效率,并允许快排等O(NlogN)算法处理桶内数据.对均匀数据仍然保持O(N)时间复杂度,对极端不均匀数据则只退化为O(NlogN)的原算法.对一般非均匀数据,证明数组桶排序算法总体性能高于经典算法.均匀数据实验表明,桶排序算法明显优于Lin-ux下标准qsort系统调用,且数组桶排序算法效率更高.而在非均匀的正态数据实验中数组桶算法性能下降明显小于经典桶排序,总体效率仍然优于qsort的直接应用.
杨磊宋涛
关键词:复杂度桶排序
基于大规模日志分析的搜索引擎用户行为分析被引量:137
2007年
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。
余慧佳刘奕群张敏茹立云马少平
关键词:计算机应用中文信息处理网络信息检索搜索引擎用户行为分析
清华THUIR2005年863信息检索评测
2006年
在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字。以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果。我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数。以及有比较一致的良好效果的八链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果。
赵乐岑荣伟王灿辉齐伟金奕江张敏马少平
关键词:计算机应用中文信息检索
基于文档中心内容快速提取的Web监控辅助系统
Web已成为人们获取信息的重要来源。Web数据的产生与传播变得更加自由和便捷,数据量持续爆炸式增长,因而对Web进行监控和预警的需求也更加迫切。本文提出一种快速提取文档中心内容的算法,用于缩减Web海量数据的规模。实验结...
王灿辉金奕江马少平
关键词:WEB监控
文献传递
基于相邻词的中文关键词自动抽取被引量:12
2007年
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。
王灿辉张敏马少平黄宇
关键词:关键词抽取信息检索
信息检索研究:过去三十年中我们走了多远
本文以对信息检索领域最顶级的国际会议SIGIR三十年来论文主题的分析为切入点,结合近来年对相关领域的研究和实践,对信息检索研究的发展变化历程和趋势进行总结和分析。
马少平张敏
关键词:信息检索SIGIR
文献传递
面向信息检索需要的网络数据清理研究被引量:5
2006年
W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。
刘奕群张敏马少平
关键词:计算机应用中文信息处理网络信息检索数据清理
基于平均检索精度的图像特征融合方法被引量:4
2005年
在基于内容的图像检索中,不同图像特征反映了图像不同侧面的内在特性,如何有效地组织和利用这些特征从而提高系统的检索性能是一个值得研究的课题.首先提出了特征互补率的定义,通过计算互补矩阵有指导地选择融合特征集.实验结果表明,互补矩阵能够很好地估计特征之间的补充能力.同时提出了基于平均检索精度的特征线性融合方法,并在一个包含12000张异质图像的大型图像库上与当前图像检索中最常用的几种方法进行了对比实验,结果表明这种方法具有更高的精度.
茹立云马少平路晶
共2页<12>
聚类工具0