您的位置: 专家智库 > >

胡万亭

作品数:3 被引量:18H指数:2
供职机构:西南交通大学信息科学与技术学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 2篇网页
  • 2篇抽取
  • 2篇词频
  • 2篇词频统计
  • 1篇多特征融合
  • 1篇信息抽取
  • 1篇正文抽取
  • 1篇中文
  • 1篇网页数据
  • 1篇网页正文
  • 1篇文体
  • 1篇基于WEB
  • 1篇机构名识别
  • 1篇成词

机构

  • 3篇西南交通大学

作者

  • 3篇胡万亭
  • 2篇贾真
  • 2篇刘利
  • 2篇尹红风
  • 1篇杨燕
  • 1篇戴齐

传媒

  • 1篇计算机应用与...
  • 1篇计算机应用研...

年份

  • 1篇2014
  • 2篇2013
3 条 记 录,以下是 1-3
排序方式:
一种基于词频统计的组织机构名识别方法被引量:14
2013年
命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。
胡万亭杨燕尹红风贾真刘利
关键词:词频
基于Web的大规模中文人物信息提取研究
现代人越来越依赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。网...
胡万亭
关键词:词频统计正文抽取网页数据
文献传递
基于多特征融合的网页正文信息抽取被引量:4
2014年
当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。
刘利戴齐尹红风贾真胡万亭
关键词:信息抽取
共1页<1>
聚类工具0