国家科技支撑计划(2011BAH10B04-03)
- 作品数:2 被引量:3H指数:1
- 相关作者:李素建曹自强王宇昕王荀更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 内容标签和关系标签相结合的汉语篇章标注规范被引量:1
- 2015年
- 篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RSTDT,PDTB),并结合自然语言处理任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够比较准确和全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。
- 王荀李素建王宇昕
- 关键词:修辞结构理论
- HDP与互信息相结合的中文无指导分词被引量:2
- 2013年
- 该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益。互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法。不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%。该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%。
- 曹自强李素建
- 关键词:互信息