刘芹
- 作品数:6 被引量:28H指数:3
- 供职机构:武汉大学计算机学院更多>>
- 发文基金:教育部人文社会科学研究基金湖北省教育厅人文社会科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 面向超大规模的中文文本N-gram串统计被引量:3
- 2014年
- 中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。
- 余一骄刘芹
- 关键词:汉字N-GRAM语料库排序
- 基于语义的中文网页检索被引量:4
- 2012年
- 用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。
- 余一骄刘芹
- 关键词:语义检索中文网页信息抽取
- 大规模中文语料库检索技术研究被引量:4
- 2015年
- 大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。
- 余一骄刘芹
- 关键词:汉字语料库词性N-GRAM
- 格上高效的基于身份的环签名体制被引量:15
- 2017年
- 环签名由于具有无管理者和完全匿名的特性,在电子投票、电子货币及匿名举报等方面有着广泛的应用.基于身份的环签名是基于身份的公钥密码技术与环签名技术的融合,既具有环签名的匿名性和不可伪造性,又避免了传统公钥框架下复杂的用户数字证书管理.传统的基于身份的环签名方案一般基于双线性对构造,而量子计算技术的发展为密码带来新的挑战,传统意义下的困难问题在量子计算环境下不再安全.格密码作为一类抗量子计算攻击的公钥密码体制,近年来备受关注.本文提出了一种格上基于身份的环签名体制,给出了基于身份的环签名方案安全模型的形式化定义,将不可伪造性归约到格中小整数解的困难性,在随机谕言模型下证明了所提出方案的完全匿名性和不可伪造性.现有的格上基于身份的环签名方案还很少,且离实用还有一定的距离.由于采用了维数无扩展的格基委派技术和拒绝抽样技术,本文方案与现有的方案相比,具有更高的计算效率、更低的通信和存储开销,更具有实用性.
- 贾小英何德彪许芷岩刘芹
- 大数据环境下支持多关键字的可搜索公钥加密方案被引量:2
- 2017年
- 云计算为大数据提供了强大的数据处理平台,而数据的安全和隐私问题也引起了人们的高度关注.本文提出了一个新的大数据环境下支持多关键字的无需安全信道的无证书可搜索公钥加密方案,并且证明了在随机预言机模型下,本文方案能够抵抗关键字猜测攻击.同时,效率分析表明,与Peng等方案相比,本文方案降低了计算代价和通信代价.
- 马米米何德彪陈建华刘芹
- 关键词:大数据隐私性可证明安全
- 基于大规模语料库的高频汉字串互信息分布规律分析
- 2014年
- 基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。
- 余一骄尹燕飞刘芹
- 关键词:短语语料库互信息