罗梓恒
- 作品数:4 被引量:13H指数:1
- 供职机构:吉林大学计算机科学与技术学院更多>>
- 发文基金:吉林省科技发展计划基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于加权余弦相似度的XML文档聚类研究被引量:13
- 2010年
- 在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。
- 李巍孙涛陈建孝罗梓恒李雄飞
- 从XML历史结构变化中发现频繁变化结构
- 2010年
- 给出一个从XML历史版本结构变化中发现频繁变化结构的解决方案.提出HCN-DOM模型,在该模型中记录历史版本中出现的每一个结点的变化次数和显著变化次数.基于HCN-DOM模型,提出两种算法:FCS算法和FCS+算法.FCS算法在构建完HCN-DOM后获取FCS,而FCS+算法采取边构建边获取的策略,提高了效率.实验结果表明两种算法是高效的.
- 苏强李雄飞罗梓恒
- 关键词:XML数据挖掘FCS
- 基于频繁变化结构的动态XML文档挖掘研究
- XML数据是一种自描述,半结构化的数据,具有其独特而新颖的复杂数据结构,在数据交换方面起着非常重要的作用,越来越多的数据使用XML形式进行存储和表示,现在已经出现了一些基于XML的原生数据库。因此针对XML数据进行数据挖...
- 罗梓恒
- 关键词:数据挖掘文档聚类
- 文献传递
- 基于频繁变化结构的时序XML文档聚类方法
- 2010年
- 为解决XML文档对动态性表示不足的问题,通过对XML文档加入时间信息进行建模,提出2种基于时间序列的XML文档频繁变化结构挖掘算法FCSBF和FCSDF,实现对动态XML文档频繁变化结构的高效挖掘。在此基础上提出一种针对动态XML文档的聚类新方法,实验结果证明,该方法能够对动态XML文档进行有效的聚类。
- 罗梓恒李巍孙涛李雄飞
- 关键词:文档聚类