国家高技术研究发展计划(2001AA114120)
- 作品数:11 被引量:136H指数:7
- 相关作者:吴立德薛向阳张玥杰肖友能连理更多>>
- 相关机构:复旦大学新疆大学东北大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金上海市科学技术发展基金更多>>
- 相关领域:自动化与计算机技术电子电信文化科学更多>>
- 基于最大熵模型的英文名词短语指代消解被引量:28
- 2003年
- 提出了一种新颖的基于语料库的英文名词短语指代消解算法 该算法不仅能解决传统的代词和名词 /名词短语间的指代问题 ,还能解决名词短语间的指代问题 同时 ,利用最大熵模型 ,可以有效地综合各种互不相关的特征 算法在MUC 7公开测试语料上F值达到了 6 0 2 % ,极为接近文献记载的该语料库上F值的最优结果 6 1 8%
- 钱伟郭以昆周雅倩吴立德
- 关键词:最大熵自然语言处理
- 一种新型的跨语言信息检索技术被引量:2
- 2002年
- 1.前言
随着科学技术迅猛发展,信息交流量与日俱增,人们开始广泛应用高速度、大容量的现代化工具--计算机进行信息处理.为使计算机能够应用于更广泛的用户,利用计算机高效率地进行各种语言信息处理已成为一个迫切需要研究的课题.由此,语言信息处理应运而生,成为一门新兴学科,其相关理论和方法研究在计算机科学与人工智能领域也显得尤其重要.自动的信息检索(Informatton Retrieval,IR)也作为语言信息处理研究领域的重要课题,越来越引起人们的兴趣与重视.人们希望用机器来实现信息自动检索,以解决人工方式带来的困难与复杂,如今正随着人们在语言信息处理领域里所取得的成果而变为现实.
- 张玥杰连理吴立德
- 关键词:语言信息处理计算机信息检索系统跨语言信息检索
- 基于DOP技术实现英汉机译
- 2003年
- 本文以DOP理论作为语言现象的描述基础,以英汉机译为背景,对面向数据的英汉机译方法进行深入研究。其中,不仅提出一种基于DOP技术的源语组合分析模式,而且建立了相对应的目标语生成机制。前者以DOP技术作为基本框架,通过源语语句片段组合形式的获取以及基于相似的概率评估,完成整个分析过程。而后者基于传统上主要应用于分析过程的DOP技术,通过对分析结果进行线性化操作,最终生成目标语译文。实验表明,目标语译文质量比较令人满意,可成功实现英汉机译。
- 张玥杰朱靖波姚天顺
- 关键词:机器翻译自然语言处理DOP语言学汉语
- 视频转码技术回顾被引量:36
- 2002年
- 随着各种视频压缩标准的制定及计算机硬件、网络技术的发展,视频信息的应用呈现出爆炸式的增长。为了适应用户终端的多样性及网络自身的传输特性,20世纪90年代后期,视频转码成为视频编码领域一个新的研究热点。本文从视频转码的应用、体系结构和关键技术三个方面,回顾近几年来在视频转码方面的研究进展。
- 肖友能薛向阳曾玮
- 关键词:视频转码技术数字视频视频编码视频压缩
- 基于向量空间模型的Web中文信息过滤系统被引量:6
- 2003年
- 提出了一种基于VSM的自适应的Web信息过滤系统的设计及实现方法.与传统的信息过滤系统相比,Web上的信息过滤系统具有许多全新的特征.页面为半结构化的文档、页面上的噪声信息比较多,用户提交的正例比较少.这些特性成为影响过滤性能的主要因素.针对Web的上述特性设计的Fudanfilter2002过滤系统,具有使用方便、过滤时间短、精度高等特点.
- 胡恬
- 关键词:信息过滤向量空间模型自适应
- 一种新的利用多帧结合检测视频标题文字的算法被引量:8
- 2005年
- 视频中的标题文字通常在视频信息索引和检索中起到重要作用.提出了一种新的视频标题文字的检测算法.首先采用一种新的多帧结合技术来降低图像背景的复杂度,它基于时间序列对多帧图像进行最小(或最大)像素值搜索,搜索的具体方式由Sobel边缘图来决定.然后以块为单位来进行文字与非文字的分类,即用一扫描窗口对图像进行扫描,以Sobel边缘为特征,判断其是否为文字.一个2级的金字塔被用来检测不同大小的文字.最后,提出一种新的迭代的文字区域分解方法,它能够更精确地定位文字区域的边界.实验结果表明,这种文字检测算法能够取得很高的精度和召回率.
- 王蓉蓉金万军吴立德
- 关键词:视频
- 基于最大熵模型的QA系统置信度评分算法
- 置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度。本文描述了一种基于最大熵模型的算法。首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度。在2002年度的文本检索会议(...
- 游斓周雅倩黄萱菁吴立德
- 关键词:最大熵模型信息检索
- 文献传递
- 基于英汉机译实现跨语言信息检索被引量:11
- 2004年
- 随着日益增长的大量信息成为可利用的、用户面对查询一个多语种文本集合的情形 ,变得越来越普遍 .这就产生一个非常重要的问题—以一种语言描述的用户查询与以不同语言书写的文本之间的匹配问题 ,也就是一种如何跨越语言界限的问题 ,即跨语言信息检索 (Cross- L anguage Information Retrieval,CL IR) .针对该项任务建立了一个面向英汉的跨语言信息检索系统 ,并以此为基础提交了相关的几组运行结果 .同时 ,结合所构建的汉语 IR系统 ,实现完整的英—汉 CL
- 张玥杰郭依昆连理吴立德
- 关键词:信息检索跨语言信息检索机器翻译语料库
- 多媒体数据压缩标准——MPEG系列被引量:2
- 2002年
- 随着各种多媒体数据压缩标准的制定及计算机硬件、网络技术的发展 ,多媒体信息的应用呈现出爆炸式的增长。为了适应用户终端的多样性及网络自身的传输特性 ,2 0世纪90年代后期 ,一些国际标准化组织制定了几个多媒体数据压缩标准 ,并且获得了成功的应用 ,其中最主要的是MPEG系列。在此主要从视频的编码原理 ,视频数据组织结构和应用领域等方面对MPEG - 1、MPEG - 2、MPEG - 4和MPEG -7做了一些介绍。
- 郭汉军肖友能
- 关键词:MPEG-4MPEG-7MPEG-1MPEG-2多媒体运动图像专家组
- MPEG-7颜色、纹理和形状描述子被引量:14
- 2004年
- MPEG-7视觉标准制定了若干基于图像内容的视觉描述子,从而为直观地表达图像和视频特征提供了更加行之有效的方法。在对图像或视频进行基于内容的识别、过滤和浏览时,视觉描述子有着广泛的应用。MPEG-7定义了颜色、纹理、(物体)形状、运动等视觉描述子,论文介绍其中颜色、纹理和形状描述子的意义、提取算法以及一些主要的特性。
- 纪敏
- 关键词:描述子MPEG-7视频信息