段建国
- 作品数:5 被引量:44H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于话题特征统计的互联网热点分析技术
- 网络中热点话题发现问题,本文提出了一种基于话题特征统计的互联网热点话题发现方法。该方法首先从文本中提取话题特征,然后对话题特征进行聚类分析,从而发现热点话题特征,再利用检索技术,将热点话题特征对应的话题报文检索出来,形成...
- 段建国丁国栋程学旗
- 关键词:关键词抽取
- 基于信息论的文本分类模型被引量:3
- 2008年
- 从信息论的角度,提出了一种新的文本分类模型。该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题。从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明。根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础。
- 唐亮段建国许洪波梁玲
- 关键词:文本分类互信息信息熵
- 基于拉推策略的文本分类增量学习研究
- 增量学习算法被广泛用于解决面向大规模数据集的机器学习问题。针对文本分类问题,该文提出了增量学习算法的一般性问题。基于拉推策略的基本思想,该文提出了文本分类的增量学习模型 ICCDP。最后,进一步探讨了 ICCDP 模型在...
- 罗长升段建国许洪波郭莉
- 关键词:文本分类
- 文献传递
- 基于互信息最大化的特征选择算法及应用被引量:39
- 2008年
- 该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。
- 唐亮段建国许洪波梁玲
- 关键词:文本分类交叉熵信息增益
- 基于推拉策略的文本分类增量学习研究被引量:2
- 2008年
- 学习算法是否具有增量学习能力是衡量其是否适合于解决现实问题的一个重要方面。增量学习使学习算法的时间和空间资源消耗保持在可以管理和控制的水平,已被广泛应用于解决大规模数据集问题。针对文本分类问题,本文提出了增量学习算法的一般性问题。基于推拉策略的基本思想,本文提出了文本分类的增量学习算法ICCDP,并使用该算法对提出的一般性问题进行了分析。实验表明,该算法训练速度快,分类精度高,具有较高的实用价值。
- 罗长升段建国郭莉
- 关键词:计算机应用中文信息处理文本分类