张希娟
- 作品数:5 被引量:17H指数:2
- 供职机构:东北大学信息科学与工程学院更多>>
- 发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主动学习的自适应话题追踪
- 针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确...
- 王会珍张希娟朱靖波张斌
- 文献传递
- 面向文本分类的混淆类判别技术被引量:13
- 2008年
- 分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.
- 朱靖波王会珍张希娟
- 关键词:文本分类特征选取自然语言处理
- 面向文本分类的基于最小冗余原则的特征选取
- 在文本分类中,为了降低计算复杂度,常用的特征选取方法(如 IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(Minimal Redundancy Pr...
- 张希娟王会珍朱靖波
- 关键词:特征选取文本分类
- 文献传递
- 主动学习中后验概率尖锐现象的平滑处理
- 在主动学习中,朴素贝叶斯分类器的后验概率尖锐现象严重影响对候选朱标样本信息量的正确评估, 降低基于不确定性的采样机制的性能。为了解决朴素贝叶斯分类器后验概率尖锐的问题,本文提出了一种采样平滑技术,对朴素贝叶斯分类器的后验...
- 张希娟朱靖波
- 关键词:朴素贝叶斯分类器
- 文献传递
- 面向文本分类的基于最小冗余原则的特征选取被引量:5
- 2007年
- 在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
- 张希娟王会珍朱靖波
- 关键词:计算机应用中文信息处理特征选取文本分类