齐飞
- 作品数:2 被引量:1H指数:1
- 供职机构:北京交通大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于列重合度的网络表格一致性扩展
- 2017年
- 网络表格的扩展是根据已知信息扩展与主列相关的其他属性列,以满足人们通过表格获取感兴趣信息的需求。目前的研究工作主要针对由主列和待扩展列组成的实体-属性二元表,并将主列视为其他属性列扩展的唯一依据,但该技术运用到具有多个待扩展列的网络表格时,由多个二元表拼接而成的结果表很容易出现实体不一致现象。综合考虑各属性列间以及元组行间的关系,提出一致性支持度概念,设计并实现了基于列重合度的表格一致性扩展系统CCA,其既能保证候选值的高匹配分数,又能使结果表中填值所使用的数据源表数目最小化,有效地避免了实体不一致问题。实验表明,与现有方法相比CCA系统有更高的精确度、覆盖率、一致性,以及更低的查询时间代价。
- 齐飞王宁张丽方孙伟娟
- Web表格的实体列发现算法被引量:1
- 2017年
- 针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。
- 张丽方王宁齐飞
- 关键词:WEB表格