曹亚男 作品数:38 被引量:85 H指数:7 供职机构: 中国科学院信息工程研究所 更多>> 发文基金: 国家自然科学基金 中国科学院战略性先导科技专项 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 更多>>
一种微博热点事件的地理位置发现方法 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3... 敖吉 牛温佳 曹亚男 张鹏 乔治 谭建龙 郭莉一种用于生成式摘要的评估方法及排序网络 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入... 曹亚男 徐灏 尚燕敏 刘燕兵 谭建龙 郭莉文献传递 融合链接拓扑结构和用户兴趣的朋友推荐方法 被引量:7 2015年 提出一种新的朋友推荐方法,该方法同时使用用户兴趣和朋友关系这2种因素来为目标用户推荐朋友,对PageRank算法进行改进,提出一种能同时融合上述2种因素的Topic_Friend_PageRank(TFPR)模型。首先,采用LDA(latent Dirichlet allocation)分析用户发布的消息内容,将用户表示为若干主题上的分布,从而建模用户的兴趣。接下来,使用加权的PageRank算法建模用户在整个链接拓扑中的重要程度和用户之间朋友关系的相似性。最后根据主题感知的PageRank思想,将用户兴趣融入前面提到的加权PageRank中,形成同时融合用户兴趣和朋友关系的TFPR模型。采用新浪微博数据验证所提模型的性能,实验证明该模型能同时得到较高的准确率和召回率。 尚燕敏 张鹏 曹亚男关键词:社交网络 朋友关系 主题模型 PAGERANK算法 基于异质图自监督学习的恶意域名检测方法及装置 本发明公开了一种基于异质图自监督学习的恶意域名检测方法和系统。所述方法包括:将DNS场景建模为一个原始异质图;其中,所述原始异质图中的节点包括:域名、客户端和IP地址;在数据层面上引入轻微的扰动来生成所述原始异质图的轻微... 袁方方 李志平 曹亚男 张啸梁 卢毓海 曹聪 刘燕兵基于线性阈值模型的影响力传播权重学习 被引量:7 2014年 度量用户间影响力对商品的营销和推广具有重要作用。然而,已有工作通常假设用户之间的相互影响行为是独立的,忽略了影响力在传播过程中具有的累积效应。为解决此问题,该文在线性阈值模型的框架下,提出一种影响力传播权重的计算方法。该方法将社交网络中用户的历史行为日志看作样本,借鉴最大似然估计的思想对用户间影响力学习问题建模,并设计一种优化的粒子群算法对问题求解。实验使用真实数据验证了该方法的有效性。 郭静 曹亚男 周川 张鹏 郭莉关键词:社交网络 基于社会正则的行为定向 2013年 行为定向又称为兴趣定向,是在线广告的一种有效投放手段,主要指网络媒体或广告联盟网络根据用户的历史行为信息为用户投放其感兴趣的广告.用户的历史行为信息包括搜索历史、网页浏览历史、广告点击和交易历史等,研究表明这些行为数据具有稀疏性、实时性和海量的特点.如何针对这些特点设计更好的行为定向方法已成为研究界和工业界面临的主要难题.针对行为数据具有稀疏性这一特点,提出一种新的融合社会信息与用户历史行为信息的行为定向方法.该方法的基本思想是基于Homophily理论:朋友之间对某一事物的喜好或态度具有一定的相似性,单个用户对该事物的喜好可通过其朋友们对该事物的态度来判断.首先将行为定向看作一个优化问题—采用泊松回归建模用户对广告的浏览和点击次数,并通过使数据似然最大的方法构建目标函数;然后将社交网络的朋友关系数据抽象为社会正则项,并将该正则项作为优化问题的一部分,以建模朋友之间的相互影响.本文中,我们根据朋友们喜好的相似度差异提出两个社会正则项:均值正则项———朋友们的喜好相似度较高;个体正则项———朋友们的喜好相似度差异较大.将这两个社会正则项分别加到上述优化问题中,对应均值模型和个体模型.实验表明这两个模型的性能要优于传统的只使用用户历史行为信息的行为定向方法;尤其当用户的历史行为数据稀疏时,我们的模型在点击率提升度上比传统方法提高了5%的精度. 尚燕敏 张鹏 曹亚男一种文档的篇章级事件论元抽取方法、系统及介质 本发明公开了一种文档的篇章级事件论元抽取方法、系统及介质,属于文本信息抽取领域,针对上下文一致性检索、模式一致性检索和自适应混合检索这三种检索方式,通过构建基于T5模型的检索增强生成模型,执行对应的检索增强策略,可以回忆... 曹亚男 毕冠群 任昱冰 尹鹏飞 刘燕兵基于发文内容的微博用户兴趣挖掘方法研究 被引量:9 2018年 针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其类别,从而实现对微博用户的兴趣挖掘。在SMP CUP 2016数据集上的实验结果表明,主题短语模型在困惑度和短语质量上取得的效果均优于传统的主题模型,用户兴趣挖掘的准确率和召回率最高可达到78%和82%。 熊才伟 曹亚男关键词:知识库 基于异构社交网络信息和内容信息的事件推荐 被引量:13 2020年 基于事件的社交网络使得事件推荐受到越来越多的关注.不同于其他推荐问题(如电影推荐等),事件推荐具有3类不同信息:用户构成的异构社交网络关系信息(在线社交网络和离线社交网络)、用户/事件的内容信息、用户对事件的隐式反馈信息.如何有效融合这些信息进行事件推荐是该领域学者普遍关注的问题.提出一种新的混合事件推荐方法CHS-BPR,该方法以贝叶斯潜在因子模型为基本框架来处理用户对事件的隐式反馈信息,同时考虑用户/事件的内容信息和用户之间的异构社交网络信息,首次实现了同时使用3种信息来做事件推荐,并以真实数据集验证了所提方法的有效性. 尚燕敏 曹亚男 刘燕兵关键词:内容信息 一种基于微博的事件实时监测方法及系统 本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存... 李凌云 张鹏 曹亚男 乔治 敖吉 谭建龙 郭莉文献传递