国家重点基础研究发展计划(2012CB724108)
- 作品数:4 被引量:10H指数:3
- 相关作者:汤帜高良才仇睿恒林晓燕房婧更多>>
- 相关机构:北京大学北大方正集团有限公司更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于Gestalt原理的多连通分量形状外包络提取方法
- 2013年
- 图形识别领域的学者们正在将研究重点从简单图形转向复杂图形,其中,由多个独立图元(该文中称为连通分量)组合成的外轮廓对于复杂图形的整体分析起着至关重要的作用.该文提出了一种针对多连通分量形状提取整体外轮廓(即外包络)的方法.该方法基于德劳内三角剖分(Delaunay Triangulation),根据Gestalt原理,通过对轮廓片段的凹度和连通分量之间松散度的分析,构造了紧致的外包络,特别是针对断口情况,即由于明显内凹或间隙过大造成的视觉缺失,提出了一种基于平滑曲线对接的恢复方法,最终得到了更符合人类视觉感知的外轮廓.实验对象选自MPEG-7图形库,实验结果表明了该文方法在提取复杂图形外轮廓方面的有效性.
- 吕肖庆符松平宋建国高良才汤帜
- 版式电子文档表格自动检测与性能评估被引量:3
- 2013年
- 针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。
- 房婧高良才仇睿恒汤帜
- 关键词:自动性能评估
- 中文电子文档的数学公式定位研究被引量:4
- 2014年
- 区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。
- 林晓燕高良才汤帜
- 关键词:电子文档中文文档
- 一种在电子出版中融合固定版面与流式信息的方法被引量:3
- 2012年
- 随着硬件条件的提高和网络技术的发展,特别移动终端的快速发展,电子文档的使用环境日趋多样化,但相关技术却面临着更大的挑战.这是因为固定版面与流式信息之间存在本质的矛盾,难以进行融合、协同工作.虽然人们尝试了一些方法来解决这个问题,但是效果都不甚理想.我们在研究现有技术的基础上,提出了一种新的基于版面块的文档模型,并赋予其固定版面的特性与必要的流式信息,以适应多样化的终端环境,能够解决电子文档出版中的固定版面与流式信息融合的问题.实现效果说明,本文提出的文档模型在实际使用中具有很大的潜力.
- 仇睿恒汤帜
- 关键词:文档处理电子出版