您的位置: 专家智库 > >

戴耀康

作品数:2 被引量:28H指数:2
供职机构:吉林大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金教育部人文社会科学研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇文本分类
  • 1篇文本分类方法
  • 1篇无监督学习
  • 1篇聚类
  • 1篇类方
  • 1篇反例
  • 1篇PU
  • 1篇ROCCHI...
  • 1篇FREQUE...
  • 1篇词性
  • 1篇词性标注

机构

  • 2篇吉林大学
  • 1篇东北师范大学

作者

  • 2篇刘露
  • 2篇彭涛
  • 2篇戴耀康
  • 1篇张邦佐
  • 1篇闫昭
  • 1篇左万利
  • 1篇钱锋

传媒

  • 1篇软件学报
  • 1篇吉林大学学报...

年份

  • 1篇2015
  • 1篇2013
2 条 记 录,以下是 1-2
排序方式:
一种基于规则的无监督词性标注方法被引量:5
2015年
提出一种基于规则的无监督词性标注方法,利用200多条英语语法规则,创建26个规则函数,先将输入的待标注英语句子进行预处理后得到初始标记,再对每个单词调用规则函数,最终得到标注后的英语句子.通过对Brown语料库的实验,词性标注的正确率达到93.95%.实验结果表明,本文方法可行、有效,能很好地提高英语词性标注的准确率.
彭涛戴耀康朱枫彤张邦佐刘露闫昭钱锋
关键词:词性标注无监督学习
一种基于聚类的PU主动文本分类方法被引量:23
2013年
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
刘露彭涛左万利戴耀康
关键词:聚类FREQUENCY
共1页<1>
聚类工具0