您的位置: 专家智库 > >

罗燕

作品数:6 被引量:100H指数:4
供职机构:河北师范大学数学与信息科学学院更多>>
发文基金:国家自然科学基金国家社会科学基金河北省高等学校科学技术研究指导项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...

主题

  • 3篇同频
  • 3篇齐普夫定律
  • 2篇中文
  • 2篇关键词提取
  • 2篇词频
  • 2篇词频统计
  • 1篇低频
  • 1篇多尺度
  • 1篇预处理
  • 1篇实证
  • 1篇实证研究
  • 1篇数据挖掘
  • 1篇数据预处理
  • 1篇中文文本
  • 1篇文本分类
  • 1篇文本数据
  • 1篇文本挖掘
  • 1篇相似性度量方...
  • 1篇聚类
  • 1篇聚类挖掘

机构

  • 6篇河北师范大学

作者

  • 6篇赵书良
  • 6篇罗燕
  • 3篇李晓超
  • 3篇柳萌萌
  • 2篇陈敏
  • 2篇丁亚飞
  • 2篇韩玉辉
  • 2篇高琳
  • 2篇李超
  • 1篇李超
  • 1篇贾立国
  • 1篇罗燕
  • 1篇高琳

传媒

  • 3篇计算机科学
  • 1篇情报杂志
  • 1篇计算机应用
  • 1篇计算机应用研...

年份

  • 2篇2017
  • 3篇2016
  • 1篇2015
6 条 记 录,以下是 1-6
排序方式:
多尺度聚类挖掘算法被引量:7
2016年
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。
韩玉辉赵书良柳萌萌罗燕丁亚飞
关键词:多尺度聚类
基于词频统计的文本关键词提取方法被引量:77
2016年
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。
罗燕赵书良李晓超韩玉辉丁亚飞
关键词:词频统计齐普夫定律关键词提取
布茨定律用于中文同频词规律的实证研究
2015年
布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数据规模的选取和文本长度跨度的设计。实验得出:随着文本长度的增大,低频词的同频词数与不同词数的比值并非定值,而是逐渐减小;低频词的同频词数与不同词数的关系呈幂函数增长。另外,随着文本长度的增大,低频词的同频词数与频次为1的同频词数的比值也非定值,而是逐渐增大。上述结果与布茨所做英文的实验不一致,故得出结论:布茨定律不适用于中文文本。
李晓超贾立国罗燕陈敏柳萌萌赵书良
关键词:齐普夫定律
基于特征隶属度的文本分类相似性度量方法被引量:2
2017年
基于相似性进行文本分类是当前流行的文本处理方法。基于特征隶属度的文本分类相似性度量方法旨在利用特征与文档间的隶属关系度量文档相似性,从而实现文本分类。该方法基于特征与文档的隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并基于3种隶属词集定义隶属度函数。全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零。在度量相似性时,偏隶属关系高于全隶属关系。由于同类文档词集相近,异类文档词集差异明显,因此,基于特征与文档的隶属度进行相似性度量,可清晰界定词集与类别的隶属关系,提升分类精度。最后,采用数据集20-Newgroups和Reuters-21578对分类有效性进行验证,结果表明基于特征隶属度的相似性度量方法的性能优于目前流行的相似性度量方法。
池云仙赵书良罗燕赵骏鹏高琳李超
关键词:数据挖掘文本分类
中文文本同频词统计规律及在关键词提取中的应用被引量:4
2016年
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。
李晓超赵书良罗燕陈敏柳萌萌
关键词:齐普夫定律关键词提取
基于词频统计规律的文本数据预处理方法被引量:11
2017年
在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。
池云仙赵书良罗燕罗燕高琳高琳
关键词:大数据文本挖掘数据预处理词频统计
共1页<1>
聚类工具0