您的位置: 专家智库 > >

张玉亮

作品数:1 被引量:2H指数:1
供职机构:内蒙古师范大学计算机与信息工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:语言文字自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...
  • 1篇语言文字

主题

  • 1篇信息抽取
  • 1篇语料
  • 1篇爬虫
  • 1篇网络
  • 1篇文本识别
  • 1篇蒙古文
  • 1篇古文
  • 1篇抽取

机构

  • 1篇内蒙古师范大...

作者

  • 1篇哈斯
  • 1篇张玉亮

传媒

  • 1篇内蒙古师范大...

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
蒙古文网络文本识别与采集方法被引量:2
2016年
笔者主要研究实现了蒙古文网页的内容识别,以及使用网络爬虫爬取网页,并自动提取网页中的蒙古文文本,在此基础上将对网络文本做词频统计研究。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网词库,进行词频统计和训练语言模型,这些语料可用于命名实体识别、信息检索、统计机器翻译等研究领域。
张玉亮哈斯
关键词:蒙古文爬虫语料信息抽取
共1页<1>
聚类工具0