钱钢
- 作品数:4 被引量:11H指数:1
- 供职机构:南京财经大学信息工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的关系数据库关键词查询技术被引量:1
- 2017年
- 为了解决关系数据库关键词查询算法存在的问题,根据图搜索算法,将关系数据转换成数据图,再将数据图物化成key/value形式存于分布式文件系统中。Map函数对数据图中每个节点计算其可达关键词,Reduce函数判断一个节点是否可达所有查询关键词,若满足条件则输出以该节点为根的结果树。在深入研究传统的查询算法基础上,提出了基于MapReduce的分布式并行数据图搜索算法。在用普通PC搭建的Hadoop集群上的实验表明:该方法明显提升了查询结果树生成速度,并且具有较好的可扩展性。
- 周鹏程施欢欢钱钢
- 关键词:关键词查询MAPREDUCE分布式计算
- 面向不规则列表的网页数据抽取技术的研究被引量:1
- 2015年
- 抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
- 常丽君钱钢
- 在复杂网络中查找k个有限重叠的密集子图
- 2016年
- 密集子图问题广泛应用于社区发现、生物信息学中基因共表达和蛋白质相互作用等方面,是图挖掘和复杂网络研究的一个重要环节。现有的研究大多围绕查找单个密集子图和多个不相交的密集子图展开,忽略了子图的重叠及子图间的联系。为填补这一空白,引入最小密集图的概念,提出查找k个有限重叠的密集子图问题,最大化总密度的同时,满足子图节点集合间不超过限定的Jaccard系数。提出两个启发式算法,并通过实例计算以及与现有算法的比较分析,证明了算法的有效性。
- 印安涛钱钢施欢欢
- 关键词:复杂网络线性规划
- 基于振荡算法和领域本体的学术文献关键路径自动识别和可视化展示方法被引量:9
- 2012年
- 从海量的学术文献中自动发现有价值的高质量文献和研究点的时序演变路径是现代学术趋势分析领域的重要研究内容。本文探讨了一种将引文分析技术、语义本体技术和可视化展示技术进行有效结合的学术文献关键路径自动识别方法和可视化呈现方法,通过结合时间维度,它可以更好帮助学者用户发现有价值的高质量文献群及其相关联系。该方法主要建立在基于振荡算法的学术文献权值算法,和利用基于引文关键词加权共现技术的领域本体设计的引文链接权值算法之上,同时提供了完整的可视化展示界面。最后,文章对相关测试实验做了详细的说明。
- 李树青徐侠钱钢韩伟
- 关键词:本体语义分析引文分析