国家自然科学基金(71271209)
- 作品数:16 被引量:88H指数:5
- 相关作者:杨小平余力朱建林张永俊吴佳楠更多>>
- 相关机构:中国人民大学北京理工大学北京联合大学更多>>
- 发文基金:国家自然科学基金北京市自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于异构信息网络的分类算法被引量:2
- 2019年
- 为实现异构信息网络中所有结构节点的分类,以GNetMine和HetPathMine为基础,提出基于异构信息网络的分类算法HNetMine。识别同构对象(如作者与作者)和异构对象(如作者与论文)之间的关系,为分类某种结构的节点,构建以该结构对象为起点和终点的多条同构关系元路径,通过逻辑回归整合这些元路径为同构关系方阵,根据这种结构节点的分类标准,实现该结构节点的分类。其它结构的节点依此方法,即可一次性地完成所有信息网络节点的分类。实验结果表明,HNetMine算法能够自动识别同构关系元路径,根据不同分类标准一次性地分类所有节点,在分类效果上优于已有算法。
- 朱建林陈忠阳李振张永俊梁天新
- 关键词:知识传播
- 基于CRF模型的网络新闻主题线索发掘研究被引量:6
- 2017年
- 为了准确挖掘出同一主题的大量网络新闻的线索发展脉络,该文提出了一种基于条件随机场模型的网络新闻主题线索发掘方法。首先,根据新闻主题线索句的识别规则提取出相关特征,并应用到条件随机场模型中提取出主题线索句;然后,按照时间顺序构建原始线索链;最后,对语义相近的原始线索链进行合并处理,获得最终的新闻主题发展脉络。实验结果表明,该方法在主题线索句识别上有较好的效果,最终得到的主题线索脉络能够较清晰地展现新闻发展趋势。
- 徐静杨小平
- 关键词:条件随机场
- 基于全路径相似度的大规模层次分类算法
- 2019年
- 为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。
- 朱建林陈忠阳张永俊孙存一
- 关键词:文本分类
- 融入内部语义关系对文本分类的影响研究被引量:3
- 2016年
- 为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。
- 朱建林杨小平彭鲸桥
- 关键词:向量空间模型文本分类语义挖掘特征矩阵
- 基于多头注意力对抗机制的复杂场景行人轨迹预测被引量:3
- 2022年
- 行人轨迹预测对智慧城市建设、公共危机管理具有重要意义.复杂场景中的行人轨迹不仅包含行人个体运动时序性特征,还包含行人与周围其他运动实体之间的交互性特征.如何根据场景变化,对这种时序性和交互性特征进行深度刻画并进行轨迹预测,是复杂场景行人轨迹预测的关键问题.本文采用多头注意力机制和对抗生成方法,提出一种基于多头注意力机制的生成对抗网络模型(Multi-head Attention Generative Adversarial Model,MAGAM),对复杂场景下多行人轨迹进行建模.论文首先通过多头注意力机制融合行人的相对位移信息,从不同方面学习轨迹特征空间中各子空间特征的权重信息,实现对行人之间相互影响的交互性轨迹特征刻画;然后采用对抗生成机制和多轨迹生成策略,实现对复杂场景下不同个体移动轨迹的生成与预测.最后,本文在两个公开的数据集(ETH和UCY)进行了实验验证.实验结果表明,在ADE、FDE和AnlDE三个指标上,本文提出的MAGAM模型比基准模型误差平均降低了26.90%、21.02%和24.06%.本文对模型的预测结果进行可视化分析,直观展示了本论文模型的合理性.
- 余力李慧媛焦晨璐冷友方徐冠宇
- 关键词:轨迹预测
- 基于强化学习的推荐研究综述被引量:8
- 2021年
- 推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术。但推荐系统的数据稀疏性、冷启动和可解释性等问题,仍是制约推荐系统广泛应用的关键技术难点。强化学习是一种交互学习技术,该方法通过与用户交互并获得反馈来实时捕捉其兴趣漂移,从而动态地建模用户偏好,可以较好地解决传统推荐系统面临的经典关键问题。强化学习已成为近年来推荐系统领域的研究热点。文中从综述的角度,首先在简要回顾推荐系统和强化学习的基础上,分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。
- 余力杜启翰岳博妍向君瑶徐冠宇冷友方
- 关键词:推荐系统马尔可夫决策过程
- 基于内容信任的Web信息可信度验证方法研究被引量:6
- 2014年
- Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的.因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题.文中提出一种基于内容信任的方法用以验证Web信息的可信程度.采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算.实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.
- 徐静杨小平柳增
- 关键词:WEB信息条件随机场
- 基于Word2Vec的情感词典自动构建与优化被引量:40
- 2017年
- 情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。
- 杨小平张中夏王良张永俊马奇凤吴佳楠张悦
- 关键词:情感分析
- 网络信息时效技术被引量:1
- 2014年
- 随着大数据时代的到来,对网络信息的时效性进行评价已成为当今研究的热点.将以Web新闻作为研究对象,对大数据环境下的Web信息提取和中文分词处理等技术进行研究,并在此基础上,提出一种基于Web语义信息提取的网络信息时效性评价算法.实验结果将充分体现算法实现的有效性,既可引导网络用户关注更有价值的Web信息,也可帮助网站管理者构建一个时效性更高的网站.
- 陈默杨小平柳增孙丹雯
- 关键词:语义相似度语义距离
- 评论簇在网络舆论中的情感倾向代表性研究被引量:10
- 2016年
- 【目的】验证评论簇在网络舆论中具有情感倾向代表性作用。【方法】提出基于社会网络分析的评论簇对象情感倾向性分析模型。针对网络新闻事件,以新闻的用户评论(评论总集)为语料数据,对语料数据进行结构化处理和分析,借助评论主体的形式化关系,建立具有网络节点和拓扑连接关系的知识图谱,寻找最优评论簇。以评论簇的评论主体及其对应的评论对象为主,对评论簇内的核心人物及其评论进行语义分析,计算得到评论簇情感倾向,并与对应新闻的评论总集情感倾向作对比。【结果】实验结果表明,评论簇和评论总集中的情感强度趋于一致,新闻的评论簇对新闻具有较好的情感倾向代表性,并能将网络舆情对象情感挖掘算法的性能提高58%。【局限】由于本文的评论簇对象情感倾向性分析模型在情感特征词识别和抽取方法上使用不够完善,导致少量中文分词和词性标注错误、语法依存关系错误,且未将程度词考虑在内。【结论】评论簇在网络舆论中具有情感倾向代表性作用,可提高网络舆情对象情感计算的性能,可灵活有效地降低舆情分析的时间和空间复杂度。
- 杨小平马奇凤余力莫雨婷吴佳楠张悦
- 关键词:语义网络知识图谱网络舆情