您的位置: 专家智库 > >

教育部科学技术研究重点项目(105117)

作品数:13 被引量:123H指数:7
相关作者:何婷婷张勇张小鹏胡文敏戴文华更多>>
相关机构:华中师范大学清华大学咸宁学院更多>>
发文基金:教育部科学技术研究重点项目国家自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术化学工程更多>>

文献类型

  • 13篇期刊文章
  • 7篇会议论文

领域

  • 20篇自动化与计算...
  • 1篇化学工程

主题

  • 6篇聚类
  • 5篇中文
  • 5篇抽取
  • 4篇中文信息
  • 4篇自动文摘
  • 4篇文档
  • 4篇文摘
  • 3篇多文档
  • 3篇多文档自动文...
  • 3篇信息处理
  • 3篇中文信息处理
  • 3篇子串
  • 2篇信息检索
  • 2篇遗传算法
  • 2篇术语抽取
  • 2篇自动抽取
  • 2篇自然语言
  • 2篇消歧
  • 2篇聚类研究
  • 2篇互信息

机构

  • 19篇华中师范大学
  • 2篇清华大学
  • 2篇咸宁学院
  • 1篇长江大学
  • 1篇教育部教育信...

作者

  • 17篇何婷婷
  • 7篇张勇
  • 4篇胡珀
  • 3篇瞿国忠
  • 3篇胡文敏
  • 2篇李立
  • 2篇焦翠珍
  • 2篇戴文华
  • 2篇肖华松
  • 2篇张小鹏
  • 2篇邵伟
  • 1篇赵君喆
  • 1篇朱薏
  • 1篇全昌勤
  • 1篇陈龙
  • 1篇高珊
  • 1篇李晶
  • 1篇涂新辉
  • 1篇吴保珍
  • 1篇叶星火

传媒

  • 4篇计算机工程
  • 2篇中文信息学报
  • 2篇全国第八届计...
  • 1篇计算机研究与...
  • 1篇华中师范大学...
  • 1篇计算机应用与...
  • 1篇计算机应用
  • 1篇计算机应用研...
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇第九届全国计...

年份

  • 1篇2009
  • 3篇2008
  • 8篇2007
  • 5篇2006
  • 3篇2005
13 条 记 录,以下是 1-10
排序方式:
基于质子串分解的网络新词汇自动抽取
针对中文词汇构成特点,本文提出了一种基于质子串分解的网络新词汇自动识别方法。我们从Internet上采集网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词):并在其基础上,进一步使用质子串分解方法抽取具有复杂...
张勇何婷婷
文献传递
基于网络化数据挖掘策略的中文多文档自动文摘研究
多文档自动文摘是近期自然语言处理领域的一项热点研究课题。文中提出了一种基于网络化数据挖掘策略的中文多文档自动文摘方法,该方法的特色在于生成的摘要具有全面而简洁的特性,其内容能同时获得主题覆盖和冗余之间的平衡。考虑到同一主...
胡珀何婷婷张勇
关键词:多文档自动文摘
文献传递
一种基于锚文本的并行检索策略被引量:2
2008年
进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。
高珊何婷婷胡文敏
关键词:锚文本信息检索
基于卡方检验的汉语术语抽取被引量:15
2007年
发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
胡文敏何婷婷张勇
关键词:卡方检验互信息
一种面向查询的多文档文摘句选择策略
针对面向查询的多文档自动文摘,本文提出了一种多特征融合的文摘句选择策略。首先通过计算句子与查询在语义层面上的相似度,获取句子与查询的关联特征,然后运用构建的语义网络图挖掘句子的全局关联特征, 并综合句子的这两方面特征,对...
邵伟何婷婷胡珀肖华松
关键词:面向查询多文档自动文摘
文献传递
基于词语属性的计算机辅助获取流行词语研究被引量:8
2006年
本文以2005年的1月1日至6月25日新浪网上下载的各类页面上的文本内容为研究资源集合,从中提取出有效词语,对词语的流行程度的判定属性做了定性定量的分析研究,对词语的流行特性进行了定义,在此基础上,引入衡量关注程度的量化方法,并配合依据词语判定属性与时间关系而绘制的走势曲线图,设置淘汰机制与评分机制,得到了候选流行词语,验证了流行词语判定属性规范的合理性,为机器辅助判定词语特性提供了参考数据。
何婷婷朱薏张勇任函
关键词:计算机应用中文信息处理流行词语
基于主题词对的文档重排方法被引量:2
2007年
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
何婷婷许婷瞿国忠涂新辉
基于全切分获取网络流行语方法研究被引量:3
2009年
利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。
吴保珍何婷婷李立张勇张勇
关键词:中文信息处理全切分
基于质子串分解的中文术语自动抽取被引量:26
2006年
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
何婷婷张勇
关键词:术语自动抽取互信息
利用BP神经网络的中文词义消歧模型被引量:1
2005年
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节.本文介绍了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,详细讲解了BP神经网络原理;对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论;通过试验发现实际和预测结果的误差并不随着试验迭代次数而递减,而是实际误差随着次数的增加在零的附近呈现波动状态,即使用很少的迭代次数也可以得到比较好的结果.由此得出,BP神经网络预测模型在词义消歧的中具有良好的应用前景.
何婷婷谢芳
关键词:词义消歧基于统计BP神经网络语料库
共2页<12>
聚类工具0