北京市科技计划项目(D0106008040291)
- 作品数:4 被引量:25H指数:3
- 相关作者:张勇东李锦涛唐胜王斌周建新更多>>
- 相关机构:中国科学院天津大学更多>>
- 发文基金:北京市科技计划项目国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于双字耦合度的中文分词交叉歧义处理方法
- 本文提出了一种利用双字耦合度和 t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和 t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和 t-测试差的结合要...
- 王思力王斌
- 关键词:中文分词
- 文献传递
- 文档检索中句法信息的有效利用研究被引量:6
- 2008年
- 利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法:一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。
- 丁凡王斌白硕刘宜轩李亚楠
- 关键词:计算机应用中文信息处理信息检索句法分析
- 一种抗噪音的中文网页分类方法被引量:3
- 2007年
- 网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。
- 王小冷王斌
- 关键词:计算机应用中文信息处理KNN
- 图像检索中一种有效的SVM相关反馈算法被引量:15
- 2007年
- 提出受限随机选择方法.首先对图像进行相似性排序;然后使用一个阈值限定随机选择的范围;最后在该范围内进行划分,在子范围内通过随机选择来扩大训练样本,较好地解决了小样本问题.另外,动态计算多个SVM分类器的权值,融合分类结果,较好地解决了相关反馈过程中用户的不同喜好问题.实验结果表明了该方法的有效性.
- 周建新高科李锦涛张勇东唐胜
- 关键词:SVM
- 基于时空切片的新闻主播检测算法被引量:1
- 2008年
- 为实现海量新闻视频的有效索引和检索,提出了一种基于时空切片(spatio-temprol slice,STS)特性的新闻主播检测方法.通过对时空切片的模式分析,聚类和信息融合,实现了新闻主播镜头的自动检测.该方法完全通过对新闻视频结构的分析,利用其共有的特性,对不同的新闻视频实现主播镜头自适应检测.大规模实验证明了该算法准确性高,鲁棒性强且计算复杂度低.
- 刘安安杨兆选吴佳鹏李锦涛张勇东唐胜
- 关键词:时空切片新闻主播聚类信息融合