王智超
- 作品数:5 被引量:17H指数:2
- 供职机构:沈阳航空工业学院更多>>
- 发文基金:教育部科学技术研究重点项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于条件随机场的人名识别方法被引量:6
- 2007年
- 本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别达到了91.3%和90.6%,证明了此方法的有效性。
- 郭家清蔡东风王智超刘浩公
- 关键词:人名识别条件随机场识别方法
- 文本聚类中基于知网的特征抽取方法
- 本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后...
- 王智超季铎蔡东风张桂平
- 关键词:知网特征抽取文本聚类
- 文献传递
- 基于高斯分布的簇间距离计算方法被引量:10
- 2008年
- 凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。
- 季铎王智超蔡东风张桂平
- 关键词:计算机应用中文信息处理层次聚类文本聚类
- 基于边界距离的多向量文本聚类方法被引量:1
- 2008年
- 文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。
- 蔡东风王智超季铎张桂平
- 关键词:文本表示多向量文本聚类
- 基于边界距离的文本聚类方法研究
- 文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。论文介绍了目前国内外文本聚类技术的研究现状,阐述了几种具有代表性的文本聚类方法,分析了它们的理论基础和算法特点...
- 王智超
- 关键词:文本聚类相似度特征抽取知网
- 文献传递