孙德才
- 作品数:9 被引量:10H指数:2
- 供职机构:渤海大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金辽宁省博士科研启动基金辽宁省科技厅基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 应用Q-gram命中特征优化的近似串匹配算法
- 2016年
- 近似串匹配是文本检索、生物信息学和信号处理等领域的研究基础。为提高近似串匹配速度,采用分块的方法从匹配串中提取了新的q-gram命中特征,结合新特征提出了一种新的近似串匹配算法。实验数据表明新算法消耗了少量的过滤时间就获得了较高的过滤效率,结果显示新算法在各种匹配错误率下的匹配速度一直比经典的SWIFT算法快。
- 王晓霞孙德才
- 关键词:近似串匹配
- 一种用于大数据内容安全监测的快速相似匹配并行算法
- 2022年
- 为了提高大数据集基于内容的相似匹配速度,本文采用MapReduce框架实现了一种并行的相似匹配算法,解决了大数据信息安全监测中的快速相似匹配问题。算法基于先过滤、再验证的方式设计了三个阶段。在配对阶段,通过对索引子串和匹配子串进行配对去除了不包含共享q-gram的无关对;在过滤阶段,通过q-gram命中特征过滤掉了一定不是真实匹配的候选对;在验证阶段,通过计算候选对的真实匹配度找出了满足要求的真实匹配。实验结果证明,本文提出的字符串分割过滤方法有效地提高了相似匹配的速度。实验结果也显示新算法较适合匹配度变化范围较大的应用场景。
- 王晓霞孙德才
- 关键词:大数据安全监测MAPREDUCE
- 水产品安全信息系统中属性离散化方法研究
- 2014年
- 连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。
- 鄂旭杨健王欣铨刘忠杰孙德才
- 关键词:粗糙集离散化食品安全信息系统
- 一种基于尾匹配q-gram的近似串匹配算法被引量:1
- 2014年
- 近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。
- 孙德才王晓霞
- 关键词:近似串匹配
- 一种支持多种子近似串匹配的q-gram索引被引量:3
- 2014年
- 如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。
- 孙德才王晓霞
- 关键词:大数据近似串匹配种子
- 近似串匹配过滤算法研究被引量:1
- 2015年
- 近似串匹配在众多研究领域都有广泛的应用,如文本检索、生物信息学等。文中对基于过滤技术的Off-line模式近似串匹配算法进行了相关研究。首先介绍了串匹配的基础知识和近似串匹配技术的应用分类;然后阐述了Off-line模式近似串匹配算法常用的索引结构;接着详细介绍了近似串匹配过滤算法的研究现状,并阐述了几个经典过滤算法的过滤原理;最后在实验中对比了这些经典过滤算法的性能差异,实验数据显示提高过滤效率和减少过滤时间是加快过滤算法匹配速度所要解决的关键问题。研究表明,基于留空q-gram的过滤算法是近似串匹配未来研究的方向。
- 孙德才王晓霞
- 关键词:串匹配近似串匹配
- 大数据处理中MapReduce框架的Q-sample算法设计
- 2021年
- 为了解决大量重复数据导致MapReduce的混淆消耗过大及网络传输拥堵的问题,设计了一种基于MapReduce框架的相似连接算法Q-sample。该算法首先将Q-sample的子串进行分割以减少过滤阶段的子串数量,从而减少网络传输数量,进而减少相似连接所耗费的时间,然后通过设计三个匹配过滤器和一个统计特征过滤器的方法来提高过滤效率,最后进行相关实验。实验结果表明,算法有效地提高了MapReduce众局部相似自连接速度和字符匹配的过滤效率。
- 王晓霞孙德才
- 关键词:大数据MAPREDUCE
- 一种基于Bigram二级哈希的中文索引结构被引量:2
- 2014年
- 为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。
- 孙德才王晓霞
- 关键词:串匹配中文倒排索引
- 一种基于MapReduce的大数据集相似自连接算法被引量:3
- 2017年
- 如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题,在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件,在验证阶段又采用了生成正反候选对和组合id等去冗余技术,并且读取原始字符串内容时只需读取数据集一次。实验数据显示,改进算法无论在过滤阶段还是在验证阶段都减少了算法的CPU时耗,结果表明所提改进策略是有效的。
- 孙德才王晓霞
- 关键词:大数据MAPREDUCE数据清洗