李莎莎 作品数:18 被引量:67 H指数:5 供职机构: 国防科学技术大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 自然科学总论 医药卫生 更多>>
一种基于span的实体和关系联合抽取方法 被引量:1 2022年 基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果。这些模型将文本span作为候选实体,并将span元组视为候选关系元组。span的语义表示在实体识别和关系分类中共享。然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联合抽取模型。特别地,attention用于计算相关语义表示,包括span特定特征语义表示和句子上下文的语义表示。实验结果表明,所提出的模型优于以前的模型,并在ACE2005、CoNLL2004和ADE 3个基准数据集上达到了当前最优的结果。 余杰 纪斌 吴宏明 任意 李莎莎 马俊 吴庆波关键词:SPAN 关系抽取 数据科学与大数据人才专业课程体系分析 被引量:19 2018年 针对数据科学与大数据专业的重要性日益凸显,数据科学与大数据专业人才培养方案各异,质量参差不齐的问题,选取国内外14所有代表性的高校,对其本科专业及硕士研究生专业中与数据学科相关的专业进行分析,将其培养目标和课程设置进行对比,以期能对目前国内外大数据人才培养现状进行总结,并提出数据科学与大数据专业人才培养的建议。 李莎莎 周竞文 唐晋韬 王挺关键词:大数据 篇章中的消解问题与消解算法:研究综述 被引量:2 2007年 篇章消解,即识别篇章中对现实世界中同一实体不同表达的过程,包括指代消解和同指消解两个方面。作为信息抽取的重要环节,它在信息检索、自动文摘及文本挖掘等领域有着广阔的应用前景。本文分析并总结了消解过程中常用的语言知识,介绍了上世纪90年代以来具代表性的算法,并指出了篇章消解未来的发展趋势。 李莎莎 李舟军 陈火旺关键词:指代消解 一种中文医疗事件的联合抽取方法 随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息.2020 年全国知识图谱与语义计算大会将中文电子病历临床医疗事件抽取作为评测任务,具体来说就是从中文肿瘤电子病历中抽取三种恶... 纪斌 刘慧君 李莎莎 余杰 马俊关键词:神经网络 实体消歧中特征文本选取研究 2017年 在实体消歧问题中,特征文本是指输入实体消歧系统的用于表征实体指称和候选实体的文本,其质量对于实体消歧的性能有重要的影响。论文对特征文本的选取问题进行研究,针对网络文本的特点,综合考虑文本中的特殊字符、特征文本的位置、特征文本是否包含实体指称和特征文本的单句长度等因素,对文本进行筛选和处理,产生特征文本,以提高实体消歧的效果。论文在深度结构语义网(Deep Structured Semantic Model,DSSM)和向量相似度模型(Vector Similarity Model,VSM)两个实体排序模型上验证了特征文本选取方法的效果。结果显示特征文本筛选提高了DSSM上排序准确性,在P@3、P@5和P@10上分别有12.2%、12.3%和12.2%的提高。其中特殊字符处理对VSM有5.5%的提高。实验结果表明,对特征文本进行合理的筛选及清洗,有助于提高实体消岐中候选实体排序步骤的效果。 庞焜元 唐晋韬 李莎莎 王挺关键词:数据清洗 关系抽取中远监督错误标注消除 被引量:1 2018年 目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象,给远监督方法的学习效果带来了很大的影响。提出利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用于训练模型,完成关系抽取。实验结果表明:该方法可以有效消除错误标注,提高关系抽取的性能。 汝承森 唐晋韬 谢松县 李莎莎 王挺关键词:关系抽取 语义相似性 面向中文医疗事件的联合抽取方法 被引量:3 2021年 临床病历电子化的推广普及使得利用自动化的方法从病历中快速抽取高价值的信息成为可能。作为一种重要的医学信息,肿瘤医疗事件由描述恶性肿瘤的一系列属性构成。近年来,肿瘤医疗事件抽取已成为学术界的一个研究热点,众多学术会议将其发布为评测任务,并提供了一系列高质量的标注数据。针对肿瘤医疗事件属性离散的特点,文中提出了一种中文医疗事件的联合抽取方法,实现了肿瘤原发部位和原发肿瘤大小两种属性的联合抽取和肿瘤转移部位的抽取。此外,针对肿瘤医疗事件标注文本的数量和类型少的问题,提出了一种基于关键信息全域随机替换的伪数据生成算法,提升了联合抽取方法对不同类型肿瘤医疗事件抽取的迁移学习能力。所提方法获得了CCKS2020中文电子病历临床医疗事件抽取评测任务的第三名,在CCKS2019和CCKS2020数据集上的大量实验验证了所提方法的有效性。 余杰 纪斌 刘磊 李莎莎 马俊 刘慧君基于师门关系的研究团队挖掘算法 被引量:1 2020年 为了更合理地挖掘研究团队,提出了一种基于师门关系的研究团队挖掘算法。首先,使用BiLSTM-CRF神经网络模型抽取学位论文致谢部分的师门和同门命名实体;其次,构建师生之间的指导合作关系网络;然后,改进鲁汶算法,提出基于师门关系的鲁汶算法来实现研究团队挖掘。在American College football等数据集上对比了标记传播算法、聚集系数算法与鲁汶算法的性能。此外,在三个不同规模的学位论文数据集上对比基于师门关系的鲁汶算法和原始鲁汶算法的运行效率。实验结果表明,数据规模越大,基于师门关系的鲁汶算法运行效率提升越明显。最后,在国防科技大学学位论文数据集上验证基于师门关系的鲁汶算法的研究团队挖掘性能。实验结果表明,所提算法挖掘的研究团队在团队的合作紧密程度、规模、内部联系和稳定性这四个方面比基于论文合作网络的挖掘方法更为合理。 李莎莎 梁冬阳 余杰 纪斌 马俊 谭郁松 吴庆波关键词:研究团队 学位论文 数据挖掘 若干世界一流大学数据库课程实施情况调研 被引量:9 2019年 简单分析数据库相关课程实施过程中存在的问题,介绍对8所世界一流大学数据库技术入门课程的调研情况,对课程的内容设置、成绩组成、教学环境等方面进行对比,得出若干结论,为数据库相关课程的实施、改革等提供参考。 周竞文 李莎莎 周海芳关键词:数据库课程 数据库系统 教学平台 基于神经网络纠正器的领域分词方法 被引量:1 2017年 提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性。该文方法采用了对现有分词器分词结果进行纠正的思路。这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖。然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域。该文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应。实验表明,与当前方法相比,该文方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著。 吴佳林 唐晋韬 李莎莎 王挺关键词:中文分词 神经网络