国家科技支撑计划(2006BAH02A21)
- 作品数:2 被引量:5H指数:2
- 相关作者:房婧汤帜高良才俞银燕陶欣更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于聚类技术的图书目录识别方法被引量:3
- 2010年
- 分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系。实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率。
- 高良才汤帜林晓帆俞银燕房婧
- 关键词:聚类
- 一种自动发现、分割与标注引文元数据的方法被引量:2
- 2010年
- 在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。
- 高良才汤帜陶欣房婧
- 关键词:元数据抽取数字图书馆