周俏丽 作品数:40 被引量:71 H指数:6 供职机构: 沈阳航空航天大学 更多>> 发文基金: 教育部人文社会科学研究基金 国家自然科学基金 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
结合短语结构句法的语义角色标注 被引量:4 2018年 该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进行修正。该文分别在CoNLL2004与CoNLL2005评测语料中做了实验,在CoNLL2005Shared Task的test_wsj数据集上F值为88.25%,在CoNLL2004Shared Task的test数据集上F值为85.66%。实验结果表明,引入短语结构句法能有效地提升语义角色的识别效果。 杨凤玲 周俏丽 蔡东风 季铎关键词:语义角色标注 剪枝 基于语义相似度的句法歧义结构消解 被引量:1 2006年 以汉语句法结构分析中最普遍存在的句法结构歧义现象,即“动词短语+名词短语+的+名词短语”(VP+NP1+的/u+NP2)为研究对象,提出了一种基于知网知识库的歧义消解策略。据此提出利用改进的知网相似度计算的歧义消解策略。通过对从人民日报的语料中抽取1000个“VP+NP1+的/u+NP2”的实例进行测试,实验结果正确率达到83.4%,表明这是一种有效的识别“VP+NP1+的/u+NP2”歧义结构的方法。 周俏丽 蔡东风 吕德新 朱江涛 吴英泽关键词:知网 歧义结构 消歧 相似度计算 结合短语结构树的语义角色识别方法 本发明涉及一种结合短语结构树的语义角色识别方法,包括:句子的剪枝:当系统输入一个句子时,对句子进行短语分析,将分析过后的结果通过插入语或并列结构进行剪枝,简化句子的复杂程度,缩短句子的长度;子句抽取处理:结合短语结构树对... 周俏丽 杨凤玲面向汉语单句的依存句法分析研究 句法分析是衔接自然语言理解中词法分析与语义分析的桥梁,在自然语言理解中具有至关重要的作用。在自然语言分析中,传统的基于规则的方法和近年来兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当... 周俏丽关键词:句法分析 歧义消解 组块分析 文献传递 面向专利文本基于三维动概念模型的汉语语义树库的构建 本文探讨了面向专利文本构建汉语语义树库的一些问题。在三维动概念模型理论的基础上,面向专利翻译,确定了以语块为标注对象的语义关系标注集;提出了自顶向下的人工标注流程;以及对句子进行层次划分和体现核心词的树库加工处理规范。面... 王亚腾 蔡东风 冯好国 周俏丽 魏铭濡关键词:树库 语块 文献传递 问答式信息检索技术 被引量:7 2008年 针对知识管理在知识共享、搜索、交流和管理等方面的需求,分析了现有知识管理系统采用的检索技术中存在的不足,介绍了一种能够理解、分析并能回答自然语言提问的问答式信息检索技术。该技术可以作为目前知识管理系统中传统信息检索的替代技术,更好地服务于知识共享、搜索、交流和管理。 白宇 周俏丽 蔡东风关键词:知识管理 知识共享 汉语句法成分中心词自动识别方法的研究 本文提出一种基于层叠条件随机场的统计和规则相结合的句法成分中心词自动识别的方法。首先将输入的一个标有句法成分的句子分为底层组块和高层短语,分别对这两部分训练两个不同的模型,并逐层进行中心词识别;然后通过规则库和实例库分别... 任晓娜 王莹莹 周俏丽 蔡东风关键词:自然语言处理 句法分析 条件随机场 文献传递 采用混合模型的电信领域用户流失预测 被引量:9 2019年 用户流失预测能够帮助公司减少客户的流失,对公司的营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,还没有真正应用到实际生产当中。提出了利用神经网络、机器学习与朴素随机过采样、投票相结合的混合模型来预测电信领域的流失用户。数据集使用的是KDD Cup 2009年比赛数据,该数据由法国电信运行商Orange公司提供。在十折交叉验证下,AdaBoost和Gradient Boosting一次投票分类后AUC值能够达到0.6771,利用其他模型对混合模型预测出的流失用户清单进行二次投票分类,前200名高危流失用户的预测准确率能够达到31.8%。实验结果表明,朴素随机过采样和投票相结合有效提升了模型的准确性。 汪明达 周俏丽 蔡东风关键词:神经网络 面向专利文本的单语模板的自动获取方法 被引量:1 2010年 基于模板的机器翻译方法在专利文本的自动翻译中具有广泛的应用。由于专利文本的术语繁多,并且分布极不均匀,因此在使用统计方法获取翻译模板时通常会产生严重的数据稀疏问题。本文提出一种专利文本的单语模板的自动获取方法,这种方法充分利用了专利文本中词汇分布极不均匀的特点,通过统计词汇出现的频率来识别出模板的固定部分和可泛化部分。实验结果证明,这种方法在专利文本的模板的自动获取上具有非常好的性能。 周俏丽 蔡东风 张桂平关键词:机器翻译 基于启发式信息的中文姓名识别方法 被引量:1 2006年 提出了一种以姓氏和互信息作为启发式信息探测潜在姓名,对上下文进行局部全切分,最后利用隐马尔科夫模型为工具识别姓名的新方法。本方法将姓名识别,汉语分词,词性标注结合为一体,总体上提高了姓名识别的性能,一定程度上解决了分词错误对姓名识别带来的影响。实验结果表明本文提出的方法是有效的。 朱江涛 蔡东风 吕德新 周俏丽关键词:姓名识别 自动分词 词性标注 全切分