福建省教育厅资助项目(JB06023)
- 作品数:4 被引量:22H指数:2
- 相关作者:白清源谢丽聪谢伙生张莹沈志斌更多>>
- 相关机构:福州大学更多>>
- 发文基金:福建省教育厅资助项目教育部留学回国人员科研启动基金福建省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中特征权重算法的改进被引量:14
- 2008年
- TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.
- 沈志斌白清源
- 关键词:文本分类TFIDF
- 基于互信息规则剪枝的关联文本分类被引量:2
- 2008年
- 传统的关联文本分类算法产生的规则数量巨大,若不对规则剪枝会影响分类效率,而采用以前的剪枝方法又会使分类精度出现不同程度的下降.为此提出以互信息的方法对每个类的规则进行剪枝,挑选出分类能力强的规则构成分类器,对待分类文本进行分类.经过这个方法剪枝后的规则数量大幅减少,且能取得比规则集未修剪过的分类器和采用以前剪枝方法的ARC-BC算法更好的分类效果,大量的实验表明此方法是有效的.
- 商炳章白清源
- 关键词:互信息规则剪枝
- 一种新的基于粗糙集的leader聚类算法被引量:4
- 2008年
- 传统聚类方法将对象严格地划分到某一类,但很多时候边界对象不能被严格地划分。粗糙集用上近似集和下近似集表示一个类,对这种边界不确定的处理非常有效,典型算法有基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法。本文针对RFA(Rough Fuzzy Approach)算法存在的不足,提出了一种新的基于粗糙集的leader聚类算法(NRL,Novel Rough-based Leader)。其基本思想是首先数据项由于与其最近类中心的距离不同,分别被划分到leader集或者supporting leader集,然后对leader集和supporting leader集进行标号,得到聚类结果。实验结果表明NRL算法非常有效。
- 张琼张莹白清源谢丽聪谢伙生
- 关键词:聚类粗糙集K-MEANS算法
- 基于访问兴趣度的用户事务聚类方法被引量:2
- 2007年
- 针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。
- 苏云辉张莹白清源谢丽聪谢伙生
- 关键词:相似度聚类
- 基于特征项权重改进的关联文本分类
- ARC-BC是目前已知的分类效果最好的关联规则分类算法.但是,无论是ARC-BC还是其他的文本关联分类算法都是以规则的置信度为分类准则,完全忽略了特征项的权重,这导致了关联文本分类算法的性能较差.为此利用特征项权重定义了...
- 商炳章白清源
- 关键词:文本分类关联规则特征项权重匹配度
- 文献传递