国家高技术研究发展计划(2006AA01Z143)
- 作品数:4 被引量:34H指数:3
- 相关作者:陈家骏周俊生戴新宇曲维光黄书剑更多>>
- 相关机构:南京大学南京师范大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于图划分的无监督汉语指代消解算法被引量:23
- 2007年
- 指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。
- 周俊生黄书剑陈家骏曲维光
- 关键词:人工智能自然语言处理聚类指代消解
- 中心词驱动的汉语统计句法分析模型的改进被引量:3
- 2008年
- 在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。
- 何亮戴新宇周俊生陈家骏
- 关键词:计算机应用中文信息处理基本名词短语汉语句法分析
- 一种错误敏感的词对齐评价方法
- 对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。本文针对基于短语的...
- 黄书剑奚宁赵迎功戴新宇陈家骏
- 关键词:统计机器翻译词对齐AER
- 文献传递
- 一种基于贪婪算法的KNN参数选择策略被引量:1
- 2008年
- K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。
- 金自翔戴新宇陈家骏
- 关键词:文本分类K近邻贪婪算法
- 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT被引量:7
- 2008年
- 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.
- 戴新宇田宝明周俊生陈家骏
- 关键词:潜在语义分析文本分类