您的位置: 专家智库 > >

苏立新

作品数:7 被引量:13H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 5篇期刊文章
  • 2篇专利

领域

  • 4篇自动化与计算...
  • 1篇理学

主题

  • 3篇用户
  • 3篇社交
  • 3篇社交网
  • 3篇社交网络
  • 3篇网络
  • 2篇身份
  • 2篇身份特征
  • 2篇网络用户
  • 2篇好友
  • 2篇抽取
  • 1篇段落
  • 1篇多任务
  • 1篇多任务学习
  • 1篇虚实
  • 1篇用户身份
  • 1篇用户特征
  • 1篇语言模型
  • 1篇社交关系
  • 1篇识别方法
  • 1篇数据挖掘

机构

  • 7篇中国科学院
  • 5篇中国科学院大...

作者

  • 7篇苏立新
  • 6篇程学旗
  • 4篇郭嘉丰
  • 3篇许洪波
  • 3篇兰艳艳
  • 3篇梁英
  • 1篇徐君
  • 1篇傅川
  • 1篇庞亮

传媒

  • 3篇模式识别与人...
  • 1篇计算机研究与...
  • 1篇计算机学报

年份

  • 1篇2022
  • 2篇2020
  • 1篇2019
  • 1篇2018
  • 1篇2016
  • 1篇2015
7 条 记 录,以下是 1-7
排序方式:
基于完全子图的社交网络用户特征识别方法被引量:3
2016年
社交网络已经成为人们获取信息、交友的主要媒体,但其自身虚拟性、匿名性等特点在给人们带来便利的同时也使用户身份不易确认.为此,文中提出基于完全子图的社交网络用户身份特征识别方法,根据三度影响力原则,构建推测模型,通过分析社交网络拓扑结构图中构成完全子图的用户属性,推测未知用户的未知身份特征.提出多度包含完全子图身份特征识别方法和多度传递的完全子图身份特征识别方法,利用未知用户的三度互粉社交网络拓扑结构图的邻接矩阵搜索完全子图,通过多数投票器方法进行身份推测,有效改善因社交关系稀疏而导致的用户身份特征识别结果不稳定的问题.实验表明文中方法具有较高的准确率.
胡开先梁英苏立新许洪波傅川
关键词:社交关系社交网络
关于短文本匹配的泛化性和迁移性的研究分析被引量:2
2022年
自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能力,以及如何在新领域中有效地利用现有不同领域中的大量带标注的数据,达到减少新领域的数据标注量和提升性能的目标.为此,重点分析了不同数据集之间的泛化性和迁移性,并且通过可视化的方式展示了影响数据集之间泛化性的因素.具体地,使用深度学习模型ESIM(enhanced sequential inference model)和预训练语言模型BERT(bidirectional encoder representations from transformers)在10个通用的短文本匹配数据集上进行了详尽的实验.通过实验,发现即使是在大规模语料预训练过的BERT,合适的迁移仍能带来性能提升.基于以上的分析,也发现通过在混合数据集预训练过的模型,在新的领域和少量样本情况下,具有较好的泛化能力和迁移能力.
马新宇范意兴郭嘉丰张儒清苏立新苏立新
关键词:迁移性
一种社交网络用户身份虚实映射的方法及装置
本发明提供一种社交网络用户身份虚实映射的方法及装置,涉及网络数据挖掘技术,能够较准确地推测出社交网络中个体用户的真实身份。所述方法包括:获取身份待定用户的三度好友并生成相应的社交网络拓扑结构图,所述三度好友包括所述身份待...
梁英胡开先许洪波苏立新程学旗
文献传递
多段落中文阅读理解模型被引量:1
2019年
解决多段落中文阅读理解任务需要考虑证据段落的稀疏性、中文语义的多样性和答案片段的有效性.基于此种情况,文中设计多段落中文阅读理解模型,利用数据增强的方式学习不包含答案的段落,利用字级别编码和中文词性标注丰富中文的语义表示,通过答案片段的特征训练答案有效性验证模型.将文中模型应用到CIPS-SOGOU事实类问答数据中,实验表明,完全匹配率和F1分数的平均分均有所提高.
赵峻瑶庞亮苏立新兰艳艳郭嘉丰程学旗
面向多片段答案的抽取式阅读理解模型被引量:5
2020年
随着搜索技术的发展,抽取式阅读理解已经成为搜索引擎中重要的组成部分.给定问题和文本,抽取式阅读理解任务要求从文本中定位出问题的答案.已有工作仅考虑答案片段由文本中的一个片段组成的情况,因此把该问题建模为输入问题和文本,预测出两个文本中的位置索引去指示答案的起始和结束位置.然而现实应用中存在大量问题其答案往往由文本中一个或多个片段组成,想要回答该问题需要从文本中定位出若干的文本片段,而不再是单一片段.已有的阅读理解模型研究主要关注在模型底层结构的设计,对于多片段答案的情况未予考虑,导致已有模型无法从文本中抽取多个答案片段去回答问题.本文提出面向多片段答案的抽取式阅读理解模型BERTBoundary,该模型采用预训练的BERT作为底层结构进行文本和问题的理解.BERT通过自我注意力机制和前向神经网络对文本和问题进行编码表示,同时利用在大规模无监督语料上进行BERT模型参数的预训练达到更强的文本理解.利用新颖的边界序列标注方式去建模一段文本中多个答案片段,模型对答案的起始位置和结束位置分别进行序列标注,对每个词进行二分类,判断其是否是答案的起始位置或者结束位置,并通过简单有效的序列标注方式进行答案片段的解码.BERT-Boundary结合了BERT的文本理解能力和边界序列标注的多片段建模能力.我们在构造的大规模多片段答案的阅读理解数据集上进行详尽地实验和分析,实验结果表明,BERT-Boundary的性能比基线方法取得一致的提升.我们进一步在不同答案片段长度和答案片段数量上比较我们的模型和基线方法,实验数据表明,我们的方法比基线方法取得一致的提升.我们的代码公开发布在https://github.com/lixinsu/multi_span.
苏立新郭嘉丰郭嘉丰兰艳艳徐君兰艳艳
一种社交网络用户身份虚实映射的方法及装置
本发明提供一种社交网络用户身份虚实映射的方法及装置,涉及网络数据挖掘技术,能够较准确地推测出社交网络中个体用户的真实身份。所述方法包括:获取身份待定用户的三度好友并生成相应的社交网络拓扑结构图,所述三度好友包括所述身份待...
梁英胡开先许洪波苏立新程学旗
文献传递
基于标签增强的机器阅读理解模型被引量:2
2020年
抽取式问答中已有模型仅建模答案的边界,忽视人的潜在标注过程,导致模型仅学习到表面特征,影响泛化能力.因此,文中提出基于标签增强的机器阅读理解模型(LE-Reader),模拟人的标注过程.LE-Reader模型同时建模答案所在句子、答案内容和答案边界.根据用户标注的答案边界推断正确答案的句子和答案内容作为标签,监督模型的学习过程.通过多任务学习的方式融合3个损失函数.预测时融合3种建模结果,确定最终答案,提高模型的泛化性能.在SQuAD数据集上的实验验证LE-Reader的有效性.
苏立新郭嘉丰郭嘉丰兰艳艳程学旗
关键词:多任务学习答案抽取
共1页<1>
聚类工具0