江苏省自然科学基金(BK2006117)
- 作品数:6 被引量:43H指数:3
- 相关作者:陈家骏周俊生戴新宇商琳贾修一更多>>
- 相关机构:南京大学南京师范大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于图划分的无监督汉语指代消解算法被引量:23
- 2007年
- 指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。
- 周俊生黄书剑陈家骏曲维光
- 关键词:人工智能自然语言处理聚类指代消解
- 基于数据浓度的粗糙集规则生成算法分析
- 2008年
- 大部分粗糙集学习算法进行性能分析时只考虑到数据集的规模,并不考虑等价类分布等特点。基于数据饱和度和数据浓度这2个数据集特性,对规则生成算法进行分析,通过对比实验说明了数据的饱和度和浓度对规则生成算法性能有重要的影响。
- 贾修一商琳陈家骏
- 关键词:粗糙集
- 一种命名实体翻译等价对的抽取方法被引量:10
- 2008年
- 有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。
- 陈怀兴尹存燕陈家骏
- 关键词:人工智能机器翻译HMM
- 基于优势关系粗糙集的规则生成算法被引量:2
- 2007年
- 针对现有的基于优势关系粗糙集的规则生成算法存在运行效率低的问题,提出了一种基于多个优势差别矩阵的规则生成算法,突出不同决策类之间的差别信息,在得到精简规则集的同时,能够提高规则生成效率.通过实验与其他规则生成算法加以比较,表明该算法在平均性能方面优于其他算法.
- 贾修一商琳陈家骏
- 关键词:优势关系粗糙集
- 一种结合BaseNP识别的汉语概率句法分析改进模型
- 基本短语,尤其是基本名词短语(BaseNP)一直是句法分析中需要特殊处理的一种结构。准确地识别基本短语不仅有助于降低句法分析的复杂度,提高效率:而且还能起到消歧的作用,从而改善句法分析的结果。本文在 Collins 概率...
- 何亮戴新宇周俊生陈家骏
- 关键词:基本名词短语汉语句法分析
- 文献传递
- 基于一种新的合成核的中文实体关系自动抽取
- 实体关系的抽取是信息抽取中的一个重要问题。针对中文句法分析研究现状,本文首先设计了一种能够直接利用浅层语言特征的混合谱核来描述关系实例的上下文,并给出了基于广义后缀树的高效核计算方法;然后再通过与实体核的组合生成合成核,...
- 周俊生戴新宇陈家骏曲维光
- 关键词:关系抽取广义后缀树
- 一种基于贪婪算法的KNN参数选择策略被引量:1
- 2008年
- K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。
- 金自翔戴新宇陈家骏
- 关键词:文本分类K近邻贪婪算法
- 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT被引量:7
- 2008年
- 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.
- 戴新宇田宝明周俊生陈家骏
- 关键词:潜在语义分析文本分类