中国博士后科学基金(20090450465)
- 作品数:6 被引量:11H指数:2
- 相关作者:王惠临高影繁徐红姣刘娟于薇更多>>
- 相关机构:中国科学技术信息研究所北京信息科技大学更多>>
- 发文基金:中国博士后科学基金“十一五”国家科技支撑计划中国科学技术信息研究所预研基金项目更多>>
- 相关领域:文化科学语言文字自动化与计算机技术更多>>
- 一种面向复杂多值属性的本体存储方法研究被引量:1
- 2010年
- 随着本体种类和资源的增加,本体的结构越来越复杂,如何合理地存储各种结构类型的本体、支持高效的本体查询是一项很有意义且具有挑战性的课题。本文提出一种面向复杂多值属性的本体存储方法,采用与传统的本体分解存储模式不同的数据库模式分解方法,将单属性值资源与多属性值资源的存储分别处理来解决资源与属性值之间的复杂关系问题,并通过对资源和其属性值的统一存储来解决存储冗余问题。实验结果验证了该本体存储方法在获取复杂本体关系方面的优势,但同时也暴露出模式结构的易理解性与模式的查询效率之间的矛盾,在此基础上提出了修正存储模式的折中方案,实验表明查询资源的速度比原来方案基本快了一个数量级,但这是以冗余的多个表结构为代价的。
- 高影繁刘娟王惠临
- 关键词:本体数据存储数据库
- 跨语言文本分类技术研究进展被引量:5
- 2010年
- 本文以综述的形式对跨语言文本分类技术目前的发展态势进行了介绍,从应用背景出发,了解跨语言文本分类技术的社会需求;从关键技术出发,了解该项技术的核心问题及解决方案;从已有研究成果得到的结论揭示了该项技术的发展状况,作为一种重要的多语信息组织手段,跨语言文本分类技术发展前景广阔。
- 高影繁王惠临徐红姣
- 关键词:特征提取
- 基于平行语料的查询翻译词典改进方法研究被引量:2
- 2011年
- 面对基于双语词典的跨语言检索查询翻译方法中固有的一对多等翻译模糊问题,已有研究成果存在对于非组合型复合词无法进行准确翻译、双语词典和其他翻译资源联合使用引入较大计算开销等弊端。为建立英汉双向跨语言检索实用性系统,在现有的一部包含若干科技词汇和短语的双语科技词典的基础上,着重研究如何引入平行语料来改进已有的双语词典问题。目标是生成一部基于句对齐平行语料的科技类双语概率词典,为跨语言检索查询翻译消歧提供实时性支持。
- 高影繁徐红姣王惠临
- 关键词:查询翻译
- 基于跨语言文本分类的跨语言特征提取方法研究被引量:2
- 2011年
- 随着文本分类算法的实用化和多语种信息的日益丰富,当机构或组织的文档管理部门日益依赖自动文本分类时,如何解决多语种文档的归类问题成为新的研究热点,跨语言文本分类技术就是在这样的背景下提出的。本文以国家图书文献中心(NSTL)的多语种语料为研究对象,以一部科技类的汉英科技词典为资源工具,提出了一种基于跨语言文本分类的跨语言特征提取方法,实验结果验证了在简单翻译资源条件下对科技文献进行跨语言分类的可行性,也为下一阶段建立实用跨语言文类系统奠定了基础。
- 高影繁王惠临徐红姣
- 关键词:特征提取
- 查询分类在跨语言检索中的应用研究被引量:2
- 2011年
- 文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分类技术前后信息检索系统的标准化折扣累积增量评价指标的变化进行判断,来检验该评价指标的可用性和有效性。同时,查询分类可以作为降低跨语言检索系统查询翻译的歧义性的技术手段。对大规模查询集随机抽样的查询翻译实验结果表明,本文提出的基于查询分类的查询翻译消歧方法对大部分查询有效,在一些情况下甚至可以直接通过本方法完成查询翻译。结合其他方法进一步消除翻译的歧义性则是下一步的工作内容。
- 高影繁王惠临徐红姣
- 关键词:查询分类
- 基于跨语言文本分类的多语资源组织方法研究
- 2011年
- 文章以国家图书文献中心(NSTL)的多语种科技语料为研究对象,以一部科技类的英汉双语科技词典为资源工具,提出一种英汉跨语言文本分类系统的构建方法,实验结果验证了采用本方法进行跨语言分类的可行性,也为下一阶段建立跨语言分类实用系统奠定了基础。
- 高影繁徐红姣于薇王惠临
- 关键词:文本分类翻译词典信息资源