林永民
- 作品数:18 被引量:110H指数:6
- 供职机构:河北联合大学更多>>
- 发文基金:国家自然科学基金唐山市科技计划项目更多>>
- 相关领域:自动化与计算机技术理学经济管理文化科学更多>>
- 基于类信息的文本特征选择与加权算法研究被引量:8
- 2008年
- 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。
- 吕震宇林永民赵爽陈景年朱卫东
- 关键词:文本分类特征加权基尼指数
- 文本特征加权方法TF·IDF的分析与改进被引量:14
- 2008年
- TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类特征加权向量空间模型
- 基尼指数在文本特征选择中的应用研究被引量:5
- 2007年
- 使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的评估函数。结合fkNN和SVM两种不同的分类方法,在两个不同的语料集上,与其他著名的文本特征选择方法进行比较和分析实验,结果显示它的性能与现有的特征选择方法不相上下,但在算法时间复杂上获得了良好的性能。
- 林永民朱卫东
- 关键词:文本分类基尼指数
- 模糊kNN在文本分类中的应用研究被引量:6
- 2008年
- 自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签。针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析。在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较。结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性。
- 林永民朱卫东
- 关键词:文本分类
- 文本分类与特征选择技术的研究与实现
- 随着WWW的迅猛发展,Web上聚集了海量的信息,因此如何快速、准确而全面的获取有用信息已经成为巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘,以及深层次的文本挖掘为迎接这个挑战提供了新的支撑技术。本文的目标就是...
- 林永民
- 关键词:文本分类隶属度函数基尼指数人工智能
- 文献传递
- 向量空间模型中特征加权的研究被引量:8
- 2008年
- 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF.IDF方法对特征加权。但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。针对TF.IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF.GINI。实验结果显示,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类基尼指数特征加权向量空间模型
- “数据结构”课程教学方法研究
- 2013年
- 本文在讨论数据结构课程教学过程中存在问题的基础上,从理论教学和实验教学两个方面提出了相应的教学方法。通过教学实践表明,本文提出的教学方法有助于提高数据结构课程的教学质量。
- 赵爽林永民
- 关键词:数据结构理论教学实践教学
- kNN文本分类器中决策规则的改进
- kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用.但是这种方法的一个明显缺点是当样本分布密度相对不均匀时,只按照前k个近邻顺序而不考虑它们的距离差别会造成误判,影响分类器的性能.针对这个问题,采...
- 林永民朱卫东尚文倩
- 关键词:文本分类隶属度函数文档相似度
- 文献传递
- 基于价值工程的节能住宅项目全寿命周期费用研究被引量:3
- 2013年
- 随着经济的发展,城市化进程也在不断加快。建筑损耗不断增加。在对节能住宅和住宅的寿命进行了系统的分析之后,对于住宅的寿命周期和本论文基于全寿命周期和成本花费做了实际调查。调查后得出了基于价值工程的动态方面,开放的节能建筑全寿命周期费用估算模型,以及对唐山市典型的节能建筑的寿命周期费用进行了实地考察。
- 林永民朱卫东
- 关键词:价值工程
- 基于同义词词林的文本特征选择与加权研究被引量:12
- 2008年
- 特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。
- 吕震宇林永民赵爽朱卫东
- 关键词:文本分类特征加权同义词词林