公共文化服务平台

共 8 条记录，以下是 1-8

全选清除导出

排序方式：

布茨定律用于中文同频词规律的实证研究: 2015年; 布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数据规模的选取和文本长度跨度的设计。实验得出:随着文本长度的增大,低频词的同频词数与不同词数的比值并非定值,而是逐渐减小;低频词的同频词数与不同词数的关系呈幂函数增长。另外,随着文本长度的增大,低频词的同频词数与频次为1的同频词数的比值也非定值,而是逐渐增大。上述结果与布茨所做英文的实验不一致,故得出结论:布茨定律不适用于中文文本。; 李晓超贾立国罗燕陈敏柳萌萌赵书良; 关键词：齐普夫定律

多尺度数据挖掘方法被引量：28: 2016年; 多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了数据尺度划分和数据尺度的定义以及多尺度数据集之间的上下层尺度数据集关系;其次,阐明了多尺度数据挖掘的定义、研究实质和方法分类;最后,提出了多尺度数据挖掘算法框架,给出其理论基础,并将此框架应用于关联规则挖掘,提出了多尺度关联规则挖掘算法MSARMA(multi-scale association rules mining algorithm),实现了多尺度数据集之间知识的跨尺度推导.利用IBM T10I4D100K数据集和H省全员人口真实数据集对MSARMA算法进行了实验和分析,实验结果表明:算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的.; 柳萌萌赵书良韩玉辉苏东海李晓超陈敏; 关键词：多尺度频繁项集关联规则

基于词频统计的文本关键词提取方法被引量：74: 2016年; 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。; 罗燕赵书良李晓超韩玉辉丁亚飞; 关键词：词频统计齐普夫定律关键词提取

基于S-C元图的关联规则表示方法被引量：2: 2014年; 针对现有的关联规则可视化形式中,面向专家用户而忽略了普通用户的感知能力,以及当规则数量增多时,边和节点的代表元素易发生重叠,缺乏有效的展现形式,降低了可读性等问题,提出了一种新的基于S-C元图形式的一对一、一对多、多对一、多对多的关联规则可视化表示方法。首先给出了S-C元图的基本定义和以S-C元图展示关联规则的模型;接着给出了S-C元图的性质和推导过程;最后以某省全员人口数据为基础,结合前注意加工理论与格式塔理论,以S-C元图和纺锤体相结合的形式对多模式的关联规则进行可视化展示,并分析了展示效果。实验结果表明,所提出的可视化方法具有良好的展示效果。; 陈敏赵书良郭晓波柳萌萌李晓超; 关键词：关联规则可视化格式塔理论

一种新的关联规则Vis-Meta图知识表示方法被引量：2: 2015年; 针对传统关联规则表示方法无法展示领域知识,缺少对规则信息一对一、一对多、多对一、多对多的多模式表示,忽略知识发现结果的共享等问题,提出了一种新的基于Vis-Meta图的多模式关联规则知识表示方法。首先给出了Vis-Meta图的相关定义与关联规则的Vis-Meta图表示方法,接着定义了关联规则Vis-Meta图知识表示中的概念关系,并在此基础上给出了关联规则概念关系知识表示算法、关联规则实例对比算法和关联规则知识表示优化算法。最后,以某省全员人口数据为基础,对关联规则信息进行可视化分析。实验结果表明,所提出的知识表示算法具有良好的展示效果与知识共享能力。; 陈敏赵书良郭晓波李晓超柳萌萌; 关键词：META图关联规则知识表示可视化

中文文本同频词统计规律及在关键词提取中的应用被引量：4: 2016年; 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。; 李晓超赵书良罗燕陈敏柳萌萌; 关键词：齐普夫定律关键词提取

面向文本挖掘的同频词统计规律及短文本分类方法: 随着移动互联网的快速发展，大规模的数据以文本形式快速累积。如何能高效而准确地对文本信息进行分类引起了人们的高度重视。对文本分类的研究，无论是长文本还是短文本，都极为迫切。　　关键词提取是文本分类的重要基础工作之一。每个文...; 李晓超; 关键词：文本挖掘统计分析; 文献传递

多尺度关联规则挖掘的尺度上推算法被引量：6: 2015年; 多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度的定义;然后根据多尺度理论的研究重点阐明了多尺度数据挖掘的实质及研究核心;最后在多尺度数据理论研究的基础上提出了尺度上推关联规则挖掘算法SU-ARMA(scaling-up association rules mining algorithm)。该算法利用采样理论和Jaccard相似性系数对数据集挖掘结果中的频繁项集进行处理,实现了多尺度数据间知识的向上推导。利用人造数据集和H省全员人口真实数据集对算法进行了实验和分析,实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的。; 柳萌萌赵书良陈敏李晓超; 关键词：多尺度频繁项集

全选清除导出

共1页<1>

李晓超