国家自然科学基金(61271304)
- 作品数:62 被引量:288H指数:9
- 相关作者:吕学强李卓徐丽萍施水才刘克会更多>>
- 相关机构:北京信息科技大学北京城市系统工程研究中心北京拓尔思信息技术股份有限公司更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划北京市重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术文化科学机械工程更多>>
- 基于话题检测的自适应增量K-means算法被引量:6
- 2014年
- 根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。
- 李胜东吕学强施水才孙军
- 关键词:增量聚类K-MEANS算法
- 基于功能点路径的文档互操作测试评价方法被引量:1
- 2014年
- 为了解决文档互操作测试中的功能点划分粒度不统一、测试覆盖率难以度量、回归测试工作量大等问题,提出了以文档格式标准为基础、建立功能点的需求模型、设计文档互操作测试评价方法,并定义了文档格式标准变更指数、测试覆盖率、测试用例之间的关联等度量指标,可将人工测试中定性的估计发展为定量的度量体系,提高了测试过程中的可视性。该方法可以提高文档互操作测试效率,保证测试质量,促进对文档互操作过程的理解、控制和预测。
- 牟永敏杨志嘉丁媛白倩倩
- 关键词:软件测试
- 用户查询意图的层次化识别方法被引量:1
- 2014年
- 【目的】向搜索引擎提交的查询均有其潜在的查询意图,准确识别查询意图可以提高查询的效率。【方法】针对有明显意图的查询,采用滑动窗口寻找最大公共子串的策略抽取用户的意图模板,然后用模板匹配的方法识别用户查询意图。对无明显意图的查询,采用多特征融合的分类方法进行识别。【结果】实验结果表明,采用层次化识别方法和单独使用分类器方法相比,识别查询意图的实验结果正确率得到19.04%的提升。【局限】可获得的意图模板是有限的,因此显式意图查询的识别存在局限性。大规模数据情况下,模式匹配及机器学习算法的运算量很大,需要进一步优化算法。【结论】实验证明该方法在Web意图识别中是有效的,对意图识别率的提高有积极意义。
- 唐静笑吕学强柳成洋李涵
- 中文微博突发事件检测研究被引量:24
- 2013年
- 从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
- 王勇肖诗斌郭跇秀吕学强
- 关键词:突发事件文本过滤
- 搜索日志中命名实体识别
- 2015年
- 【目的】搜索日志中命名实体识别对于优化搜索意图,提高搜索引擎服务质量存在重要意义。【方法】利用种子命名实体和模板匹配原则抽取候选命名实体并聚类,聚类后进行候选命名实体识别特征抽取,包括频次、不同模板数、模板权重特征。融合这些特征构造命名实体识别权重计算公式,并合理调整特征影响参数。【结果】对根据权重提取的命名实体进行标注和统计,发现P@500值平均达到75%左右,比Pa@ca方法高出7%。【局限】对模板敏感性弱的命名实体不能精确抽取。【结论】通过计算该方法抽取结果指标P@N值,并和其他方法抽取结果指标进行比较,证明该方法的有效性。
- 任育伟吕学强李卓徐丽萍
- 关键词:搜索日志K-MEANS聚类
- 本体上下位关系在招生问答机器人中的应用研究被引量:1
- 2015年
- 【目的】提高问答系统准确率,提升目前问答系统的满意度。【应用背景】在自然语言处理领域,问答系统已成为一个重要研究热点,但现阶段问答系统的准确率较低。【方法】对智能聊天机器人ALICE源码进行分析研究,并对其进行二次开发,加入中文分词,在其内部推理分析的基础上,提出一种利用本体上下位关系对用户查询问题的推荐方法。【结果】将领域本体库融入到ALICE机器人中,对用户问题进行分析,并从中提取关键词,从本体库中查询所提取的相关关键词,得出与用户提问相匹配的答案并推荐给用户。【结论】实验结果证明,加入本体的推荐结果后,用户满意度有较大提升。
- 余昕聪李红莲吕学强
- 关键词:问答系统ALICE中文分词上下位关系
- 新能源汽车领域中文术语抽取方法被引量:10
- 2015年
- 【目的】为提高新能源汽车领域中文术语抽取结果的准确率和召回率,提出一种适合该领域的术语抽取方法。【方法】在总结前人工作基础上,提出利用条件随机场模型作为抽取模型,选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。【结果】实验结果正确率为93.12%,召回率为90.47%。正确率比Baseline方法提高7.73%。【局限】该方法只提高较短术语抽取结果的正确率。【结论】依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。
- 何宇吕学强徐丽萍
- 关键词:术语抽取条件随机场
- 基于有向图模型的多模态新闻图像检索研究被引量:4
- 2016年
- 不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。
- 相子喜吕学强张凯
- 关键词:多模态有向图模型新闻图像语义相似度
- 基于极性词典的中文微博客情感分类被引量:28
- 2014年
- 微博客是近年来自然语言处理领域研究的热点。主要针对中文微博客中的情感分类展开研究。结合网络新词和基础情感词,同时考虑了情感词的极性情感强弱,构建四个词典,分别是基础情感词典、表情符号词典、否定词词典和双重否定词词典;在情感词典的基础上,融合汉语语言学特征和微博情感表达特征,提出一种新的基于极性词典的情感分类方法。实验准确率达到82.2%。实验结果表明,提出的方法可以对中文微博进行较好的情感分类,有一定的应用价值。
- 王勇吕学强姬连春肖诗斌
- 关键词:情感分类词典语言学特征
- 机械设计图像几何特征组合检索研究被引量:1
- 2013年
- 基于内容的机械设计图像检索对机械设计行业有重要作用。提出一种基于几何特征组合的机械设计图像检索方法。通过机械设计图像形状区域对应的面积、周长等信息,得到7个具有不变性的几何特征如密实度、矩形度等,并将7个特征进行组合,构成机械设计图像的形状特征描述符,用于机械设计图像检索。该形状特征描述符具有易于计算和无需归一化的特点。实验表明,该方法在机械设计图像检索中的性能优于傅里叶描述符方法和Hu不变矩方法。
- 方乃伟吕学强张丹
- 关键词:图像检索