林啟锋
- 作品数:6 被引量:7H指数:2
- 供职机构:广西大学计算机与电子信息学院更多>>
- 发文基金:国家自然科学基金广西壮族自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于要素提取关联词对的中文报道关系检测被引量:2
- 2013年
- 针对现有中文报道关系检测的检测代价即误报率和丢失率较高的问题,在多向量空间模型基础上提取不同向量的要素(时间、地点、人物和内容)特征词组成关联词对,使用支持向量机(SVM)方法整合关联词对相似度和余弦相似度,从而提出了一种提取要素关联词对报道关系检测方法。所提方法补充表示了报道内容,为检测提供了更多的比较依据,识别代价降低了将近11%。实验结果验证了算法的有效性。
- 陈智敏蒙祖强林啟锋
- 结合语义和文本特征位串的高效KNN算法被引量:1
- 2013年
- 为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。
- 林啟锋蒙祖强陈秋莲陈智敏
- 关键词:语义关联K最近邻算法文本分类
- 结合同义向量聚合和特征多类别的KNN分类算法
- 选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度.X2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一.分析了X2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特...
- 林啟锋蒙祖强陈秋莲
- 关键词:优化设计
- 文本分类中基于概念聚合的KNN算法优化问题研究
- 随着知识经济时代的到来,信息已成为这个时代的最重要标志之一,对于信息的获取与管理也越来越得到重视。信息的表现形式也从最初的结构化、半结构化逐渐向非结构化过渡。对于非结化信息的组织和处理显得越来越重要,文本分类作为其中的关...
- 林啟锋
- 关键词:文本分类
- 结合同义向量聚合和特征多类别的KNN分类算法被引量:2
- 2013年
- 特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度。χ2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一。分析了χ2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对χ2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用。实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度。
- 林啟锋蒙祖强陈秋莲
- 关键词:文本分类KNN
- 基于改进KNN的话题跟踪算法被引量:2
- 2014年
- 针对现有的话题跟踪中由于数据不平衡性和话题漂移性造成误报率和丢失率较高的问题,在类别选择的基础上,以话题为单位的邻近报道最大平均相似度代替最大相似度和作为跟踪报道的判定依据,更新话题特征向量,从而提出一种基于改进KNN的话题跟踪算法.所提方法解决了由于数据不平衡和话题漂移带来的跟踪代价较高的问题.实验结果中识别代价降低了7%,验证了算法的有效性.
- 陈智敏蒙祖强林啟锋
- 关键词:特征向量KNN