刘克会 作品数:8 被引量:24 H指数:2 供职机构: 北京理工大学管理与经济学院 更多>> 发文基金: 国家自然科学基金 北京市教委科技发展计划 北京市重点实验室开放基金 更多>> 相关领域: 自动化与计算机技术 建筑科学 文化科学 更多>>
专利技术功效短语获取研究 被引量:10 2016年 在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。 胡菊香 吕学强 刘秀磊 刘克会燃气管线运行的动态风险评价 被引量:2 2017年 针对燃气管线运行的风险状况是随着空间和时间不断变化的情况,在风险评价的基础上,增加一个时间维度,在指标和时间的多维空间中进行燃气管线运行的动态风险评价,利用理想矩阵法建立燃气管线运行动态风险评价的矩阵相近性关联分析模型,通过各待评管段与正负理想矩阵的关联度对各待评管段的运行风险进行排序并给出风险等级.结果表明,该模型计算简便并且能够反映各待评管段运行风险的动态变化. 刘克会 刘克会 冉伦 冉伦关键词:燃气管线 扩展搜索日志上下文的新词识别 2014年 【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词。其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验,P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。 李雪伟 吕学强 刘克会关键词:搜索日志 新词 微博城市投诉文本中的地理位置实体识别 被引量:2 2016年 微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF)模型识别地理位置实体。其次根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注。最后利用微博规则库对识别结果进行补召,修正地理位置实体,最终实现地理位置实体的识别。实验结果表明该方法有显著效果,F值可达到85.52%。 孙赫 孙赫 李淑琴 吕学强关键词:CRF 微博城市投诉文本中地理位置实体的完整性研究 被引量:1 2016年 【目的】利用互动问答社区——百度知道的知识共享、更新及时的优势,弥补维护大规模地理隶属关系资源库开销大的不足,并通过百度知道自动补全缺陷地理位置实体。【方法】对缺陷地理位置实体转化为所属区域问题,并通过百度知道进行检索;根据检索结果提取特征,计算该地理位置实体属于各个区域的得分,并构建缺陷地理位置实体的所属区域特征向量;利用规则对缺陷地理位置实体进行完整化处理,实现地理位置实体完整性表示。【结果】在完整化微博城市投诉文本中的缺陷地理位置实体时,该方法的综合精确率达到92.51%。【局限】对零地理位置实体无法完整表示。【结论】该方法对缺陷地理位置实体完整化是有效的、可行的。 孙赫 李淑琴 吕学强 刘克会基于边界标记集的专利文献术语抽取方法 被引量:7 2015年 目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。 丁杰 吕学强 刘克会关键词:部件库 利用类别引导词的投诉文本分类 被引量:1 2015年 【目的】针对投诉事件文本具有信息量大、非结构化、规律性不强等特点,当前城市投诉信息管理亟需寻找一种高效的分类方法,提高管理人员的工作效率。【方法】分析投诉事件特点进而对其进行文本预处理;借助句法分析器、同义词林,并通过文档贡献度过滤引导词;采用TF-IDF计算引导词权重系数,并以VSM表示,最后通过SVM对处理后的投诉事件文本进行分类。【结果】在多个类别投诉事件测试文本中,该方法查准率和查全率平均值达到82.1%和82.3%。【局限】投诉事件文本的稀疏性在一定程度上影响分类结果。【结论】实验证明该方法在投诉事件文本分类中是有效的、可行的,能够提高投诉文本分类效果。 胡菊香 吕学强 刘克会关键词:投诉事件 文本分类 引导词 利用URL-Key进行查询分类 被引量:2 2015年 针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 李雪伟 吕学强 董志安 刘克会关键词:查询分类 URL