国家自然科学基金(60073019)
- 作品数:3 被引量:75H指数:3
- 相关作者:史忠植姜宁许卓群李辉刘少辉更多>>
- 相关机构:中国科学院中国科学技术大学北京大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于Rough集的属性值约简算法被引量:12
- 2003年
- 文章将Rough集理论应用于不同类型的决策表(一致决策表和不一致决策表)的约简,给出了广义决策、决策规则的一致程度、属性值重要性等定义,在此基础上提出了一种基于Rough集的属性值约简算法。该算法不仅能得到更为简洁的决策规则,而且能保持决策规则的一致程度不变。实例分析表明该算法是可行的。
- 胡斐张峰筠刘少辉
- 关键词:ROUGH集决策表值约简
- 运用文本领域的常识改善基于支撑向量机的文本分类器性能被引量:31
- 2002年
- 本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。
- 李辉史忠植许卓群
- 关键词:文本分类器相容性条件支撑向量机
- 高维特征空间中文本聚类研究被引量:32
- 2002年
- 依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。
- 姜宁宫秀军史忠植
- 关键词:高维特征空间文本聚类数据挖掘数据库