您的位置: 专家智库 > >

王石

作品数:51 被引量:178H指数:7
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家社会科学基金北京市科技新星计划更多>>
相关领域:自动化与计算机技术自然科学总论语言文字理学更多>>

文献类型

  • 40篇期刊文章
  • 7篇专利
  • 2篇学位论文
  • 1篇科技成果

领域

  • 39篇自动化与计算...
  • 2篇语言文字
  • 2篇自然科学总论
  • 1篇经济管理
  • 1篇医药卫生

主题

  • 11篇自然语言
  • 7篇语义
  • 6篇中文
  • 5篇知识获取
  • 5篇自然语言理解
  • 5篇网络
  • 4篇语言处理
  • 4篇知识库
  • 4篇自然语言处理
  • 4篇分词
  • 4篇抽取
  • 3篇数据库
  • 3篇文法
  • 3篇问答系统
  • 3篇聚类
  • 3篇客户
  • 3篇汉语
  • 3篇本体
  • 3篇别字
  • 3篇常识

机构

  • 49篇中国科学院
  • 15篇中国科学院大...
  • 7篇江苏科技大学
  • 5篇扬州大学
  • 4篇北京工业大学
  • 4篇中国科学院研...
  • 3篇首都师范大学
  • 3篇全国科学技术...
  • 2篇广西师范大学
  • 2篇三峡大学
  • 1篇中国中医科学...
  • 1篇浙江师范大学
  • 1篇中国中医药科...

作者

  • 50篇王石
  • 33篇曹存根
  • 10篇王东升
  • 9篇符建辉
  • 9篇王卫民
  • 8篇刘亮亮
  • 5篇曹亚男
  • 5篇朱俊武
  • 4篇林乐宇
  • 4篇吴昱明
  • 4篇汪平仄
  • 3篇刘磊
  • 3篇李阳
  • 3篇裴亚军
  • 3篇高翔
  • 3篇郑宇飞
  • 3篇曹阳
  • 3篇卢汉
  • 3篇曹馨宇
  • 2篇丰强泽

传媒

  • 16篇中文信息学报
  • 11篇计算机科学
  • 2篇计算机研究与...
  • 2篇计算机应用
  • 2篇中国科技术语
  • 1篇中国中医药信...
  • 1篇电子学报
  • 1篇北京工业大学...
  • 1篇计算机应用与...
  • 1篇计算机应用研...
  • 1篇高技术通讯
  • 1篇科技成果管理...

年份

  • 1篇2024
  • 10篇2023
  • 2篇2022
  • 5篇2021
  • 1篇2019
  • 2篇2018
  • 1篇2017
  • 2篇2016
  • 4篇2015
  • 3篇2014
  • 2篇2013
  • 5篇2012
  • 3篇2011
  • 4篇2010
  • 3篇2009
  • 2篇2008
51 条 记 录,以下是 1-10
排序方式:
互联网金融风险分析关键技术与应用
2023年
近年来,随着新一代信息技术和网络经济的快速发展应用,互联网金融进入发展的快车道。互联网金融数量多、模式泛、受众广、变化快,专业化程度高,隐蔽性强、难核实、难处置,前期我国互联网金融监管面临严峻挑战。自2014年起,在国家自然科学基金重大研究计划项目“大数据驱动的互联网金融监测与服务平台及示范应用”(91746001)、国家政务信息化工程建设规划项目等的支持下,国家计算机网络与信息安全管理中心和中国科学院计算技术研究所承担完成了“国家互联网金融风险分析技术平台关键技术与应用”项目。
吴震王石
关键词:互联网金融政务信息化国家自然科学基金网络与信息安全
面向限定领域问答系统的自然语言理解方法综述被引量:29
2017年
领域无关的自然语言理解(NLU)技术在最近的十年中取得了长足的进步,然而由于基础研究与现实应用之间存在着强烈的实际需求与当前处理能力不足的矛盾,因此很多通用技术还不能在现实的问答系统中得到有效使用。针对现有的需求,开发面向领域的自然语言理解技术显得非常必要。首先对开放领域与限定领域问答系统进行了比较,并对一些典型的面向限定领域问答系统的自然语言理解技术进行了分析,然后介绍了面向限定领域问答系统的自然语言理解技术的评测标准,最后总结了目前限定领域问答系统研究存在的主要问题及未来发展方向。
王东升王卫民王石符建辉诸峰
关键词:问答系统自然语言理解评测
概念和定名被引量:2
2011年
概念是实现科学定名的核心要素。依据概念对科技名词进行定名,是我国科技名词定名工作的基本原则。文章以概念为基础,重点阐述了四个方面的问题:1.什么是概念;2.定名工作的任务;3.为什么要依据概念定名;4.单义的绝对性和相对性。
孙春颖裴亚军周卫华王石
基于BiLSTM-CRF的中文分组单字错误识别方法研究被引量:5
2023年
近十多年来,中文自动校对取得了许多重要进展,但是单字错别字识别精度和召回率低一直是该领域的一个重要问题。该文提出一种基于BiLSTM-CRF的神经网络模型和单字分组策略识别中文错别字的方法。首先,该文提出一种构建分组单字混淆集的方法,并根据采集的分组单字混淆集自动生成错别字识别训练语料,构造了一个含有13组的汉字单字错别字识别训练语料。其次,针对传统的错别字识别方法在单字错别字召回率较低的问题,该文对错别字识别训练语料中错别字采用多标签标记的策略。再次,针对训练样本存在的数据稀疏问题,该文对训练数据集中的人名、地名、时间和机构名称这四类词语进行抽象。最后,该文利用BiLSTM-CRF的模型在错别字识别训练语料上进行训练。实验结果表明,该文提出的单字错别字识别方法在13组单字上的平均识别精确率为87.30%,平均召回率为84.36%。
曹阳曹存根曹存根王石
一种基于搭配的中文词汇语义相似度计算方法被引量:14
2013年
词汇间的语义相似度计算在自然语言处理相关的许多应用中有基础作用。该文提出了一种新的计算方法,具有高效实用、准确率较高的特点。该方法从传统的分布相似度假设"相似的词汇出现在相似的上下文中"出发,提出不再采用词汇在句子中的邻接词,而是采用词汇在二词名词短语中的搭配词作为其上下文,将更能体现词汇的语义特征,可取得更好的计算结果。在自动构建大规模二词名词短语的基础上,首先基于tf-idf构造直接和间接搭配词向量,然后通过计算搭配词向量间的余弦距离得到词汇间的语义相似度。为了便于与相关方法比较,构建了基于人工评分的中文词汇语义相似度基准测试集,在该测试集中的名、动、形容词中,方法分别得到了0.703、0.509、0.700的相关系数,及100%的覆盖率。
王石曹存根裴亚军夏飞
关键词:语义相似度词汇搭配
科技名词的缩略问题研究被引量:3
2010年
简称是科技名词名称体系中的重要组成部分,是其正名的缩略形式,在相关专业领域中应用非常广泛。开展科技名词的简称研究,对提高科技名词定名水平,促进科技概念普及推广,实现民族语言健康发展具有重要意义。文章从正名及其缩略语——简称两个角度出发,将科技名词的缩略分为一般缩略和特殊缩略,并对这一术语现象进行了研究。
裴亚军刘青周卫华王石
关键词:科技名词正名字母词
SOM-NCSCM+:抽取式神经网络中文标题生成方法研究
2023年
标题生成作为文本摘要任务的一个分支,能够帮助人们高效获取信息。本文针对中文标题生成任务面临的大规模、高质量中文标注数据缺乏的问题,利用标题往往可由原文中的词语来构成的特点,从将无监督学习模型与有监督的序列标注模型结合的角度出发,提出了融合聚类模型和主题模型的抽取式深度神经网络中文标题生成方法和模型。在缺乏人工分类标注信息的中文新闻数据集上,该模型可利用聚类和主题模型自动挖掘数据内部潜在的特征信息,获得不同的数据簇及各簇内的主题词来辅助中文新闻标题生成,使模型在具有潜在主题类别特征的、标题质量参差的中文新闻数据集上都具有较好的适用性。本文提出的中文标题生成模型在互联网上公开的中文新闻标题数据集上的实验结果也表明其在微观F1、BLEU、ROUGE、压缩率等评价指标上都取得了较基准模型更好的效果。
资康莉王石曹存根
关键词:神经网络模型主题模型聚类模型
一种客户化知识智能系统
本发明提供一种客户化知识智能系统,其特征在于自然语言理解准确率高、系统反应速度快、容错性好、设计人性化等,主要包括:NLP模块,用于对客户的短信咨询进行文本识别,从中得出咨询信息,所述咨询信息包括客户咨询的业务名称、主题...
刘亮亮王卫民曹存根王东升曹亚男吴昱明王石汪平仄
文献传递
基于本体和语义文法的上下文相关问答被引量:7
2016年
在问答系统中,用户的提问通常不是孤立的,而是使用连续的多个相关的问题来获取信息,用户在与这样的系统进行交互时,才会感觉更自然。在已构建的非上下文相关问答系统的基础上,该文提出了一种可以处理上下文相关问题的方法并开发了系统OSG-IQAs。方法首先识别当前问题是否是一个从问题(follow-up),并判别其与前面问题的具体的相关类别,然后根据相关类别,利用话语结构中的信息对当前的follow-up问题进行重构,并提交到非上下文相关问答系统中。最后,将方法在两个不同规模的领域进行测试,并与相关系统或方法进行比较,测试结果表明,该方法具有较好的可扩展性。在总体测试中,该方法比基线系统获得了更好地效果,同时利用手工将所有上下文相关问题进行上下文消解,系统与此也进行了比较,并获得了相近的性能。
王东升王石王卫民刘亮亮符建辉
关键词:本体上下文
基于Transformer网络的中文单字词检错方法研究被引量:5
2021年
错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6%和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。
曹阳曹存根曹存根
共5页<12345>
聚类工具0