杨志豪 作品数:115 被引量:655 H指数:13 供职机构: 大连理工大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 医药卫生 更多>>
利用语义关系抽取生成生物医学文摘的算法 被引量:7 2011年 通过自动摘要技术对生物医学概念进行摘要抽取,能够提高研究人员查阅和分析相关资料的效率。利用生物医学语义关系抽取多文档摘要,旨在从语义层面比较全面地覆盖查询概念的多方面内容,帮助研究人员快速掌握查询概念的主要信息。从生物医学文本中挖掘出了概念的重要语义关系,并利用语义关系作为衡量句子重要性的特征,生成查询概念的摘要。分析了H1N1、风湿病、脑脊髓炎等5种疾病,生成的摘要基本覆盖了这几种疾病的致病原因、类型、防治策略等语义类型。实验结果表明,利用语义关系特征抽取摘要的方法不但能提高摘要的性能,而且增加了生物医学语义层面内容,使生成的摘要更符合研究人员的查询需要。 商玥 林鸿飞 杨志豪关键词:关系抽取 语义分析 基于生物医学文献的化学物质致病关系抽取 被引量:5 2018年 化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease,CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%. 李智恒 桂颖溢 杨志豪 林鸿飞 王健关键词:信息抽取 半监督学习 基于问句相似度的中文FAQ问答系统研究 常见问题(FAQ)问答系统是一种在已有的'问题-答案'对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统.其关键问题是用户提出问句与FAQ库中问句进行相似度计算.本文通过对常见问句特点的研究,... 叶正 林鸿飞 杨志豪关键词:问句相似度 语义相似度 向量空间模型 问答系统 文献传递 一种基于特征自动学习的生物医学事件触发词识别方法 本发明涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发... 王健 李虹磊 林鸿飞 杨志豪 张益嘉文献传递 中文文本体裁的自动分类机制 被引量:8 2006年 文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。 方鸷飞 林鸿飞 杨志豪 赵晶关键词:计算机应用 中文信息处理 体裁分类 支撑向量机 关键词密度分布法在偏重摘要中的应用研究 被引量:1 2007年 偏重摘要系统是实现智能化信息服务的基础,偏重摘要不区分单文档与多文档,根据用户需求为用户提供结果。该文实现了用关键词密度分布方法获取偏重摘要的一个实验系统。研究了基于关键词密度分布方法生成摘要句的策略,通过两种不同的实验,对系统进行了评测。对实验结果进行了讨论。实验证明,该系统能够基本满足用户的查询要求,在基于检索任务和基于问答任务的两项不同的评测中均得到了较好的实验结果。 闫英杰 林鸿飞 杨志豪 赵晶关键词:密度分布 疾病-病症和病症-治疗物质的关系抽取研究 被引量:1 2017年 随着生物医学文献的快速增长,在海量的生物医学文献中存在大量有关疾病、病症和治疗物质的信息,这些信息对疾病的治疗和药物的研制有着重要的意义。针对疾病与治疗物质之间的信息抽取,重点训练两个模型,即疾病与病症模型和病症与治疗物质模型。疾病与病症模型判断一种疾病是否会存在或者导致一种生理现象的产生;病症与治疗物质模型判断一种物质是否改变人的生理现象或者生理过程。使用半监督学习的Tri-training的方法,利用大量未标注数据辅助少量有标注数据进行训练提高分类性能。实验结果表明,Tri-training方法中利用未标注数据有助于提高实验结果;且在训练过程中使用集成学习的思想将三个分类器器集成在一起,提高了学习性能。 冯钦林 杨志豪 林鸿飞关键词:信息抽取 半监督学习 TRI-TRAINING 基于语义理解的文本倾向性识别机制 文本倾向性识别在垃圾邮件过滤、信息安全和自动向性识别机制.其主要思想是首先计算词汇与知网中己标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则... 徐琳宏 林鸿飞 杨志豪关键词:程度副词 知网 相似度计算 语义理解 文本倾向性 文献传递 生物医学文献中的蛋白质相互作用关系抽取系统 从生物医学文献中抽取蛋白质(基因)相互作用关系对蛋白质知识网络的建立,蛋白质关系的预测,新药的研制等均具有重要的意义。本文提出了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统首先使用条件随机域模型对文献进行实体识... 吴宝栋 杨志豪 林鸿飞关键词:指代消解 关系抽取 文献传递 基于问句相似度的中文FAQ问答系统研究 常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算。本文通过对常见问句特点的研究,... 叶正 林鸿飞 杨志豪关键词:问句相似度 语义相似度 向量空间模型 文献传递