公共文化服务平台

兰艳艳: 作品数：23 被引量：136H指数：5; 供职机构：中国科学院计算技术研究所更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

基于吸收态随机行走的两阶段效用性查询推荐方法被引量：3: 2013年; 搜索引擎已经成为人们获取信息的重要途径,然而对于用户而言如何构造一个合适的查询仍然是一项困难的工作.为了减轻用户搜索信息的负担,查询推荐技术应运而生并且已经成为当今搜索引擎不可或缺的组成部分.传统的查询推荐方法主要关注向用户推荐相关性查询,即推荐与源查询具有相近搜索意图的其他查询.然而查询推荐的根本目标是帮助用户成功完成其搜索任务,而不仅仅是找到相关性查询,尽管相关性查询有时也能得到有用的搜索结果.为了更好地满足用户的搜索目标,一种更直接的查询推荐方式是向用户推荐高效用性查询,即能够更好满足用户信息需求的查询.提出了一个基于吸收态随机行走的2阶段效用性查询推荐方法,该方法能够同时对用户的查询重构行为和查询点击行为进行建模并推导出查询的效用.在真实查询日志上的实验结果表明:新方法在评价指标查询相关率(query relevant ratio,QRR)和平均相关文档数(mean relevant document,MRD)上要显著优于其他5种基准方法.; 朱小飞郭嘉丰程学旗兰艳艳; 关键词：查询推荐查询日志效用性

网络大数据的文本内容分析被引量：7: 2015年; 文本内容分析是实现大数据的理解与价值发现的有效手段。尝试从短文本主题建模、单词表达学习和网页排序学习3个子方向,探讨网络大数据文本内容分析的挑战和研究成果,最后指出未来大数据文本内容分析的一些研究方向和问题。; 程学旗兰艳艳

基于弱监督预训练深度模型的微博情感分析被引量：5: 2017年; 微博情感分析对于商业事务和政治选举等应用非常重要。传统的做法主要基于浅层机器学习模型,对人工提取的特征有较大的依赖,而微博情感特征往往难以提取。深度学习可以自动学习层次化的特征,并被用于解决情感分析问题。随着新的深度学习技术的提出,人们发现只要提供足够多的监督数据,就能训练出好的深度模型。然而,在微博情感分析中,通常监督数据都非常少。微博中广泛存在着弱监督数据。该文提出基于弱监督数据的"预训练—微调整"训练框架(distant pretrain-finetune),使用弱监督数据对深度模型进行预训练,然后使用监督数据进行微调整。这种做法的好处是可以利用弱监督数据学习到一个初始的模型,然后利用监督数据来进一步改善模型并克服弱监督数据存在的一些问题。我们在新浪微博数据上进行的实验表明,这种做法可以在监督数据较少的情况下使用深度学习,并取得比浅层模型更好的效果。; 万圣贤兰艳艳郭嘉丰程学旗; 关键词：情感分析

基于细粒度匹配信号的文本相关性度量方法和系统: 本发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统，包括：获取待语义匹配的两段文本，将该文本中每一个词映射为词向量，根据其中一段文本中每一个词的词向量，与另一段文本中每一个词向量的语义相似度，将所有该语义相似度集...; 程学旗庞亮兰艳艳郭嘉丰沈华伟陈丽娟张海楠曾玮李家宁赵峻瑶倪艺函; 文献传递

面向多片段答案的抽取式阅读理解模型被引量：4: 2020年; 随着搜索技术的发展,抽取式阅读理解已经成为搜索引擎中重要的组成部分.给定问题和文本,抽取式阅读理解任务要求从文本中定位出问题的答案.已有工作仅考虑答案片段由文本中的一个片段组成的情况,因此把该问题建模为输入问题和文本,预测出两个文本中的位置索引去指示答案的起始和结束位置.然而现实应用中存在大量问题其答案往往由文本中一个或多个片段组成,想要回答该问题需要从文本中定位出若干的文本片段,而不再是单一片段.已有的阅读理解模型研究主要关注在模型底层结构的设计,对于多片段答案的情况未予考虑,导致已有模型无法从文本中抽取多个答案片段去回答问题.本文提出面向多片段答案的抽取式阅读理解模型BERTBoundary,该模型采用预训练的BERT作为底层结构进行文本和问题的理解.BERT通过自我注意力机制和前向神经网络对文本和问题进行编码表示,同时利用在大规模无监督语料上进行BERT模型参数的预训练达到更强的文本理解.利用新颖的边界序列标注方式去建模一段文本中多个答案片段,模型对答案的起始位置和结束位置分别进行序列标注,对每个词进行二分类,判断其是否是答案的起始位置或者结束位置,并通过简单有效的序列标注方式进行答案片段的解码.BERT-Boundary结合了BERT的文本理解能力和边界序列标注的多片段建模能力.我们在构造的大规模多片段答案的阅读理解数据集上进行详尽地实验和分析,实验结果表明,BERT-Boundary的性能比基线方法取得一致的提升.我们进一步在不同答案片段长度和答案片段数量上比较我们的模型和基线方法,实验数据表明,我们的方法比基线方法取得一致的提升.我们的代码公开发布在https://github.com/lixinsu/multi_span.; 苏立新郭嘉丰郭嘉丰兰艳艳徐君兰艳艳

基于差异合并的分布式随机梯度下降算法被引量：19: 2015年; 大规模随机梯度下降算法是近年来的热点研究问题,提高其收敛速度和性能具有重要的应用价值.大规模随机梯度下降算法可以分为数据并行和模型并行两大类.在数据并行算法中,模型合并是一种比较常用的策略.目前,基于模型合并的随机梯度下降算法普遍采用平均加权方式进行合并,虽然取得了不错的效果,但是,这种方式忽略了参与合并的模型的内在差异性,最终导致算法收敛速度慢,模型的性能及稳定性较差.针对上述问题,该文在分布式场景下,提出了基于模型差异进行合并的策略,差异性主要体现在两方面,各模型在其训练数据上错误率的差异和训练不同阶段模型合并策略的差异.此外,该文对合并后的模型采用规范化技术,将其投射到与合并前模型Frobenius范数相同的球体上,提高了模型的收敛性能.作者在Epsilon、RCV1-v2和URL 3个数据集上,验证了提出的基于差异合并的分布式随机梯度下降算法相对于平均加权方式具有收敛速度更快、模型性能更好的性质.; 陈振宏兰艳艳郭嘉丰程学旗; 关键词：分布式社交网络社会计算

信息检索与机器学习的华尔兹: 现代搜索引擎带来了信息检索的高潮，通过排序学习，将领域知识作为数据表示，采用数据驱动的方式来自动决定如何共同作用;排序是一个并列于回归和分类的另一个问题，机器学习理论和算法都得到新的发展。通过深度文本匹配技术，使用高度非...; 兰艳艳; 关键词：信息检索语义关联

语言模型攻击性的自动评价方法被引量：2: 2022年; 基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现。然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本。这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型。因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题。针对该问题,该文提出了一种语言模型攻击性的自动评估方法。它分为诱导和评估两个阶段。在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的可能性。在评估阶段,利用训练好的文本分类模型的判别能力,估计诱导产生的攻击性文本的占比,用以评估语言模型的攻击性。实验评估了不同设置下的预训练模型的攻击性水平,结果表明该方法能够自动且有效地评估语言模型的攻击性,并进一步分析了语言模型的攻击性与模型参数规模、训练语料以及前置单词之间的关系。; 侯丹阳庞亮丁汉星兰艳艳兰艳艳; 关键词：语言模型

基于传播模拟的消息流行度预测被引量：3: 2014年; 社交网络中的消息流行度预测问题对于信息推荐和病毒式营销等应用具有重要意义。该文提出了一种基于传播模拟的消息流行度预测方法,首先使用最大熵模型学习并预测用户转发消息的概率,然后使用独立级联传播模型在真实的社会网络上模拟消息的传播过程,从而完成消息流行度的预测。该方法的优点在于更充分的利用了社会网络的结构和用户特征信息。该文在Twitter数据集上的实验结果表明,相对于基准方法,该文提出的方法具有更高的准确率和稳定性。; 万圣贤郭嘉丰兰艳艳程学旗; 关键词：最大熵模型

基于概率交易模型的线下百货推荐: 2016年; 该文提出了一种新颖的概率交易模型PTM,针对线下百货进行个性化的推荐。传统的推荐模型,如K-近邻算法、矩阵分解等,或者仅利用局部的数据,使得模型面临线下数据极大的稀疏性挑战,或者忽略百货数据中的交易维度,使得模型损失了同一交易中多商品共现的强相关信息,最终导致它们在面对线下百货推荐问题时性能低下。针对以上的问题,本模型从交易的维度出发,建模交易记录中的共现模式,并利用全局的交易数据来学习商品的相关分量,在此基础上推断出用户的兴趣分布,实现个性化的推荐。在真实的线下百货交易数据上的实验结果表明,该模型能够极大地提高线下百货领域个性化推荐的准确性。; 王鹏飞郭嘉丰兰艳艳晏小辉程学旗; 关键词：PTM

兰艳艳

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

兰艳艳

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈