您的位置: 专家智库 > >

国家自然科学基金(61133012)

作品数:51 被引量:481H指数:11
相关作者:姬东鸿刘挺秦兵任亚峰车万翔更多>>
相关机构:武汉大学哈尔滨工业大学清华大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
相关领域:自动化与计算机技术医药卫生理学语言文字更多>>

文献类型

  • 48篇期刊文章
  • 1篇会议论文

领域

  • 46篇自动化与计算...
  • 2篇语言文字
  • 1篇医药卫生

主题

  • 11篇中文
  • 7篇随机场
  • 7篇条件随机场
  • 6篇语义
  • 6篇网络
  • 5篇向量
  • 5篇CRF
  • 5篇抽取
  • 4篇语义分析
  • 4篇支持向量
  • 4篇支持向量机
  • 4篇自然语言
  • 4篇向量机
  • 4篇句子
  • 3篇新闻
  • 3篇社会媒体
  • 3篇神经网
  • 3篇神经网络
  • 3篇篇章
  • 3篇情感分析

机构

  • 30篇武汉大学
  • 14篇哈尔滨工业大...
  • 4篇清华大学
  • 3篇华东交通大学
  • 1篇贵州师范大学
  • 1篇哈尔滨工程大...
  • 1篇首都师范大学
  • 1篇温州大学
  • 1篇湖北科技学院
  • 1篇百度在线网络...
  • 1篇科技公司

作者

  • 28篇姬东鸿
  • 14篇刘挺
  • 7篇任亚峰
  • 6篇秦兵
  • 5篇尹兰
  • 5篇车万翔
  • 4篇张梅山
  • 4篇张红斌
  • 4篇孙茂松
  • 3篇张牧宇
  • 3篇王路路
  • 3篇郑涛
  • 2篇陈永波
  • 2篇汤昂昂
  • 2篇刘知远
  • 2篇程倩倩
  • 2篇付丽娜
  • 2篇钱涛
  • 2篇黄江平
  • 2篇吴飞飞

传媒

  • 11篇中文信息学报
  • 8篇计算机应用研...
  • 5篇计算机工程与...
  • 3篇计算机工程
  • 3篇计算机应用
  • 3篇智能计算机与...
  • 2篇华南理工大学...
  • 1篇计算机研究与...
  • 1篇计算机学报
  • 1篇武汉大学学报...
  • 1篇微电子学与计...
  • 1篇软件学报
  • 1篇计算机辅助设...
  • 1篇四川大学学报...
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇山东大学学报...
  • 1篇Journa...
  • 1篇Wuhan ...
  • 1篇云南民族大学...

年份

  • 7篇2017
  • 9篇2016
  • 15篇2015
  • 8篇2014
  • 7篇2013
  • 3篇2012
51 条 记 录,以下是 1-10
排序方式:
基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例被引量:13
2014年
在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在准确率上有大幅提高。应用基于依存句法分析的文本挖掘方法,我们在微博文本上进行了饮食习惯特色分析,实现了性别、地区、时间等维度的饮食习惯特色分析并可进行交叉分析,最终用词云的方式展示了结果。
任彬车万翔刘挺
关键词:依存句法分析文本挖掘社会媒体
基于卷积网络的句子语义相似性模型被引量:5
2017年
句子间语义相似性的计算已成为自然语言处理领域的重要研究内容,如何有效地对句子建立语义模型已成为释义识别、文本相似性计算、问答和文本蕴涵等自然语言处理应用的基础任务.文中提出了一种并行的卷积神经网络模型,该模型的两个卷积网络不仅对句子对中的单个句子建立句子向量表示,还对句子经卷积池化后的特征进行相似性度量,并获得句子间的相似性特征.采用释义识别及文本相似性两项任务进行模型性能的实验评测,结果显示,该模型能够较好地表示句子语义信息,其释义识别F1值相比基准实验提高了7.4个百分点,语义相似性评测的皮尔森相关系数比逻辑回归方法有7.1个百分点的提高.
黄江平姬东鸿
关键词:语义相似性
面向汽车领域的软文识别研究
2012年
针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。
唐都钰王大亮赵凯秦兵刘挺
基于边权重的主题核心术语抽取
2015年
术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的方法显著优于前人的相关工作。
薛涵秦兵刘挺
关键词:术语抽取社会化标签
基于迁移的微博分词和文本规范化联合模型
2015年
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.
钱涛姬东鸿戴文华
关键词:分词
基于LDA和CTR的用户模型分析被引量:1
2016年
个性化服务一直是研究的热点,但是如何构建完整的用户模型是一个颇有挑战性的问题。将基于主体模型LDA对用户模型进行预测,在用户和推荐项目的特征向量上采用CTR进行约束,使结果更为准确。在只需要少量人为因素下,由机器来训练最初的主题模型,在训练模型的基础上,通过选取100名用户的微博作为测试,用等级打分制来对推荐的项目进行打分,最终的结果显示,在新闻推荐上,微观满意度达到82.5%;而在名人推荐上,微观满意度达到了84.3%,综合以上,推荐服务的满意度还是令人满意的。
吴飞飞姬东鸿吕超镇
关键词:主题模型用户模型
中文篇章级句间语义关系体系及标注被引量:24
2014年
篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。
张牧宇秦兵刘挺
基于OC-SVM的新情感词识别被引量:3
2015年
当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法。提出一种基于OC-SVM的新情感词识别方法,通过种子词扩展方法获得词语集,并用旧词典、词频和停用词等对扩展的词进行过滤,获取新词,对新词获取的实验评估显示在适当的F值下,正确率可以达到45.5%。由于情感词和非情感词训练集的不平衡性,采用词频、相邻词及其词性等作为特征用OC-SVM(one-class support vector machine)对新词进行分类,获得新情感词,构建一个有效的新情感词识别系统。实验结果在召回率为26.6%的情况下,正确率可以达到45.7%,证明了算法的有效性。
付丽娜肖和姬东鸿
关键词:情感分析新词发现
A Multiple Feature Approach for Disorder Normalization in Clinical Notes
2016年
In this paper we propose a multiple feature approach for the normalization task which can map each disorder mention in the text to a unique unified medical language system(UMLS)concept unique identifier(CUI). We develop a two-step method to acquire a list of candidate CUIs and their associated preferred names using UMLS API and to choose the closest CUI by calculating the similarity between the input disorder mention and each candidate. The similarity calculation step is formulated as a classification problem and multiple features(string features,ranking features,similarity features,and contextual features) are used to normalize the disorder mentions. The results show that the multiple feature approach improves the accuracy of the normalization task from 32.99% to 67.08% compared with the Meta Map baseline.
Lü ChenCHEN BoLü ChaozhenQIU LikunJI Donghong
基于神经网络模型的产品属性情感分析被引量:11
2017年
针对基于词向量的神经网络模型在产品属性情感分析中效果不佳的问题,提出一种集成离散特征和词向量特征的开关递归神经网络模型。首先,通过直接循环图为语句建模,采用开关递归神经网络模型完成产品属性情感分析任务;然后,在开关递归神经网络模型中集成离散特征和词向量特征;最后,分别在流水线、联合、折叠三种任务模型中完成属性提取和情感分析任务。以宏观F1分数作为评估指标,在Sem Eval-2014的笔记本电脑和餐馆评论数据集上做实验。开关递归神经网络模型的F1分数为:48.21%和62.19%,超过普通递归神经网络模型近1.5个百分点,因而开关递归神经网络能够有效捕获复杂特征,提升产品属性情感分析的效果。而集成离散特征和词向量特征的神经网络模型的F1分数为:49.26%和63.31%,均超过基线结果 0.5到1个百分点,表明离散特征和词向量特征互相促进,另一方面,也表明仅仅基于词向量的神经网络模型仍有提升空间。三种任务模型中,流水线模型的F1分数最高,表明应将属性提取和情感分析任务分开完成。
刘新星姬东鸿任亚峰
关键词:神经网络情感分析
共5页<12345>
聚类工具0