王文玲
- 作品数:5 被引量:10H指数:2
- 供职机构:国家图书馆更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 网络存档数据质量保证策略理论框架研究被引量:3
- 2018年
- [目的/意义]数据质量保证工作是网络存档工作中的一项重要工作,其贯穿整个网络存档工作的始终,决定网络资源存档工作的成败。[方法/过程]通过对国内外各保存机构的质量保证策略及方法进行分析、研究和对比,提出数据质量保证的策略理论框架。[结果/结论 ]该框架以数据为中心,制定一系列的业务标准及工作规范,利用现有软件工具开展全流程的数据质量检查工作,同时以团队建设、运行环境维护及授权获取网站备份作为补充手段,确保获取高质量的存档数据。
- 王文玲曲云鹏
- 国内外政府信息组织技术应用研究被引量:1
- 2014年
- 政府信息具有数据分散、主题分散的特征,给用户带来了使用上的不便。知识组织技术在政府信息中的应用可以在一定程度上减少这些问题。对应用于政府信息管理和使用的知识组织技术如分类法、主题法、本体、主题图和标签系统等的应用情况进行了研究与分析,对国内外政府信息知识组织技术应用情况进行了比较,并针对目前国内的知识组织技术在政府信息领域的应用情况提出了建议。
- 曲云鹏王文玲
- 关键词:政府信息知识组织受控词表本体主题图标签
- 网络资源存档数据质量问题初探被引量:3
- 2018年
- 网络资源存档的数据质量是影响网络资源存档工作成败的主要因素之一,本文探讨如何开展网络资源存档数据质量评价,在分析网络资源存档数据质量问题的表现及其成因的基础上,提出解决网络资源存档质量问题的方法体系。该体系以存档数据为中心,严格按照既定的业务标准及工作规范,利用现有软件工具对采集过程进行全面的数据质量检查,确保获取高质量的存档数据。
- 王文玲曲云鹏
- 关键词:数据质量
- 一种分布式语义增强的词汇链文本表示模型构建方法被引量:2
- 2016年
- 【目的】利用分布式语义关联计算词衔接关系,解决目前词汇链构建时存在的词间关系探测深度不够等问题,提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳,利用WordNet词典关系来计算文本中语言单元的语义关联,利用分布式记忆模型来计算语言单元之间的潜在语义关系,将这两种语义关系结合起来实现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文本主题描述方面,本文方法的词汇链构建结果要优于非贪婪算法,算法耗时与非贪婪算法相当。【局限】算法耗时较长;没有完整考虑词衔接关系;只在对医学领域科技文献的主题识别中验证了该方法的有效性,还需要在更多领域进行证明。【结论】分布式语义关联可以识别潜在语义,对使用多元短语构建词汇链也有较大的帮助,能有效地增强词汇链构建效果。
- 曲云鹏王文玲
- 关键词:WORDNET词汇链分布式语义
- 词汇链文本表示模型计算方法综述被引量:1
- 2016年
- [目的 /意义]词汇链文本表示方法是一种通过词汇链对语篇中的词汇衔接关系进行建模的文本表示方法,该方法能够体现语篇中丰富的语义信息,在自动摘要、文本切分等领域得到广泛应用。[方法/过程]对词汇链相关研究论文进行收集和整理,对词汇链的构建方式和消歧方法进行了归纳。词汇衔接关系的计算方法包括基于语义关联的计算方法、基于统计信息的计算方法和基于图的计算方法。词汇链构建过程中的语义消歧是很重要的过程,直接影响词汇链的构建结果和效率。[结果 /结论 ]词汇链文本表示方法结构简单、应用范围广泛。词汇链文本表示模型还存在着一些问题,如使用词典构建存在很多局限性,没有完整考虑上下文的信息等。未来词汇链模型可能会向着融合语义关系方法和统计算法、使用分布式语义加强对上下文分析等方向发展。
- 曲云鹏王文玲
- 关键词:词汇链词汇衔接文本表示自然语言处理