丁丛
- 作品数:7 被引量:55H指数:4
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学环境科学与工程更多>>
- 基于《知网》的多种类型文献混合自动分类研究被引量:4
- 2016年
- 【目的】解决由于不同类型文献而产生的特征不匹配等问题,提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集,引入第三方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、非学术性期刊、学术性期刊4种类型文献上进行分类实验,与未经过扩展的分类方法相比,分类准确率提高1.2%至11.0%。【局限】未对每一种文献类型都使用公开语料进行测试,因此本文方法的通用性和实验结果的客观性有待进一步检验。【结论】实验结果表明,该方法具有一定的可行性和实用性,在不同程度上可以消除不同类型文献之间的语义差异,从语料库构建和特征扩展两个途径提高文本自动分类的分类效果。
- 李湘东刘康丁丛高凡
- 关键词:知网语义差异
- 基于复合加权LDA模型的书目信息分类方法研究被引量:14
- 2017年
- 以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的分类性能优于仅考虑其中一种特征加权策略的LDA分类方法。
- 李湘东丁丛高凡
- 关键词:文本分类LDA模型特征加权书目信息
- 多学科领域电子商务研究分析——以图书情报学和管理学为例被引量:4
- 2015年
- 在分析和总结多学科研究中两类(多学科的主题研究与多学科内某一共同主题的研究)相近但又有区别的研究内容的基础上,对后者展开深入研究。以CSSCI中收录的图书情报学和管理学期刊所刊载的电子商务主题文献为对象,分别从外部特征和内容特征比较分析两个学科在电子商务研究主题上的异同,探讨两个学科视角下关于电子商务这一共同主题开展研究的特点。通过文献计量法并结合层次分析法得出各自学科内刊载电子商务主题top5的代表性期刊;通过主题挖掘对比,揭示了在电子商务这一相同主题上两个学科研究内容的异同以及各自研究热点和发展趋势。
- 李湘东丁丛何海红
- 关键词:电子商务图书情报学管理学
- 利用《知网》和领域关键词集扩展方法的短文本分类研究被引量:17
- 2015年
- 【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的Macro_F1分别平均提高4.9%、5.9%和4.2%,在Micro_F1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。
- 李湘东曹环丁丛黄莉
- 关键词:LDA知网
- 基于Matlab的水处理实验可视化仿真研究被引量:2
- 2008年
- 以水处理实验中曝气充氧实验为例,研究以Matlab为平台,利用Matlab中的Simulink工具箱建立水处理实验的数学模块,并利用Matlab中的VR工具箱创建虚拟现实三维实验模型,然后连接Simulink数学模型和三维模型,从而实现水处理实验的可视化仿真。通过改变外界参数可获得不同的试验参数。该实验仿真软件主要可供市政工程和环境工程专业教学之用,通过进一步的开发可用于污水处理厂(站)工程设计及运行管理。
- 邵青李显锋丁丛唐有能龚庆武
- 关键词:仿真MATLABSIMULINKVR
- LDA模型下不同分词方法对文本分类性能的影响研究被引量:9
- 2017年
- 通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。
- 李湘东高凡丁丛
- 关键词:文本分类分词方法
- 基于知网语义特征扩展的题名信息分类被引量:6
- 2017年
- 本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的Macro_F1分别平均提高1.5%和3.1%,在Micro_F1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。
- 李湘东刘康丁丛廖香鹏
- 关键词:知网LDA