杜坤 作品数:5 被引量:44 H指数:5 供职机构: 西安电子科技大学经济与管理学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 文化科学 更多>>
一种基于复杂网络模型的作者身份识别方法 被引量:9 2015年 [目的 /意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法 /过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果 /结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。 李晓军 刘怀亮 杜坤关键词:文本分类 复杂网络 词共现 文体学 基于科学知识图谱的替代计量研究进展分析 被引量:5 2016年 [目的/意义]替代计量作为文献计量学新的研究领域,受到越来越多的关注和研究,为揭示其研究主题和演变途径。[方法/过程]文章运用科学知识图谱分析软件对Web of Science数据库收录的以替代计量为主题的文献数据进行分析研究,探讨了著作者和机构的分布及其合作网络情况与共被引关系情况等。[结果/结论]从研究人员的分布和合作情况看,科研人员间范围内合作程度较高,团体间合作比较少。美国、英国的研究成果多,相关研究进度较为领先。从研究阶段来看,替代计量的研究已经完成基础理论的研究,转向学术评价模型和指标数据来源的研究。[局限]分析数据集的样本容量有限,需要在更多数据集上进一步验证。 李晓军 刘怀亮 杜坤关键词:科学知识图谱 引文分析 可视化 基于语义相关度的中文文本聚类方法研究 被引量:9 2016年 [目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。 杜坤 刘怀亮 王帮金关键词:维基百科 语义相关度 文本相似度 文本聚类 基于知网语义相似度的中文文本分类研究 被引量:15 2015年 【目的】准确计算中文文本间的相似度,以提升文本分类的精度。【方法】利用TF-IDF算法计算特征词项权值,并借助知网分析词项间的语义关系,提出一种基于知网语义相似度的文本相似度加权算法,并对该算法进行中文文本分类实验。【结果】实验结果表明,该方法较传统的文本相似度计算方法在文本分类性能上有所提高。【局限】该算法的时间复杂度较高,文本分类的处理速度有待提高。【结论】该方法考虑特征项间的语义关系,能够有效提升中文文本的分类精度。 刘怀亮 杜坤 秦春秀关键词:文本分类 语义相似度 知网 结合复杂网络的特征权重改进算法研究 被引量:6 2015年 【目的】为了更准确计算特征权重,以提高文本相似度计算的准确性。【方法】考虑特征项间的语义关联构造文本复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提出一种改进的特征权重计算方法,并进行中文文本分类实验。【结果】对比实验结果表明,本文提出的特征权重改进算法较之TFIDF算法能够取得较好的分类效果。【局限】特征选择评估函数中的参数需要人工给定。【结论】相较于传统的TFIDF算法,该算法能够更加准确地计算特征权重。 杜坤 刘怀亮 郭路杰关键词:复杂网络 文本分类