国家教育部博士点基金(20050007023)
- 作品数:44 被引量:333H指数:11
- 相关作者:樊孝忠于江德余正涛尹继豪陈康更多>>
- 相关机构:北京理工大学安阳师范学院昆明理工大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金博士科研启动基金更多>>
- 相关领域:自动化与计算机技术语言文字自然科学总论更多>>
- 基于潜在语义分析的本体空间表示模型研究被引量:2
- 2008年
- 针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型。该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度。实验结果表明,与向量空间模型相比,该模型的表示效果更好。
- 汤世平樊孝忠朱建勇
- 关键词:潜在语义分析
- 汉语语言处理接口的集成与应用
- 汉语语言处理研究目前已经有很多成熟的底层处理接口,如分词、词性标注、词语相似度计算、句子相似度计算等,为了有效地利用这些接口资源,提出集成这些接口,采用JAVA开发平台,对这些接口进行二次封装,实现接口间的无缝调用,从而...
- 邓锦辉余正涛章程毛存礼郭剑毅
- 关键词:相似度计算
- 文献传递
- 基于KNN的汉语问句分类被引量:16
- 2008年
- 汉语问句分类是问答系统中重要的组成部分,问句分类结果的好坏直接影响问答系统的质量。利用知网(HowNet)义原树计算问句之间的语义相似度,并以此作为句子之间的距离度量,利用KNN算法构造分类器进行问句分类,并对最近邻分类算法、KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了89.8%的精确率。
- 贾可亮樊孝忠许进忠
- 关键词:问句分类语义相似度KNN分类器
- 基于组块分析技术的中文机构名称识别被引量:5
- 2006年
- 针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%.
- 尹继豪樊孝忠赵攀超于江德
- 关键词:组块分析启发信息
- 基于云理论的数据属性约简被引量:2
- 2006年
- 提出了一个基于云模型的数据属性约简新算法,该算法借助云模型将每个连续属性上的定量数据转化为定性概念,然后利用此定性概念计算每个条件属性对决策属性的重要性,最后以贪婪算法的思想求解约简属性,从而解决了当前约简算法对连续属性必须离散化的问题。同时对算法中可能遇到的冲突问题给出了初步的解决方案。实验表明,该算法在降低时间复杂度的同时能求出更好的属性集约简。
- 林培光汤世平余正涛
- 关键词:云模型属性约简
- C-SHOIQ:描述逻辑SHOIQ的云扩展被引量:1
- 2009年
- 鉴于经典描述逻辑不能表达不确定知识,文中将云模型、描述逻辑SHOIQ和模糊逻辑相结合,提出了一种基于云的模糊描述逻辑C-SHOIQ,用于表达不确定知识.首先给出了C-SHOIQ的语法和语义,并以实例分析了C-SHOIQ具有处理知识的随机性和模糊性的能力;然后给出了C-SHOIQ的推理方法及映射C-SHOIQ知识库为经典SHOIQ知识库的改进规则,并论证了C-SHOIQ和对应的经典SHOIQ之间概念可满足性的一致性关系;最后论证C-SHOIQ是对模糊SHOIQ表达能力的扩展.
- 刘杰樊孝忠陈康林培光
- 关键词:语义网描述逻辑云模型语义表示
- 词位标注汉语分词中特征模板定量研究被引量:4
- 2012年
- 基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长。
- 于江德王希杰樊孝忠
- 关键词:汉语分词词位标注条件随机场
- 基于语义网的分布式中文信息检索模型被引量:2
- 2007年
- 提出一个分布式的、基于语义服务的开放式信息检索模型(D-IRSW)。该模型采用统一接口规范的不同的语义检索服务作用于不同的本体库,实现针对不同本体库的个性化检索;然后由语义检索服务引擎(SRSE)对不同语义检索服务返回的结果进行去重和排序。
- 林培光樊孝忠
- 关键词:语义网信息检索语义服务
- 基于类语言模型的中文机构名称自动识别被引量:4
- 2006年
- 提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。
- 尹继豪樊孝忠于江德
- 关键词:启发信息VITERBI算法
- 基于潜在语义分析的汉语问答系统答案提取被引量:54
- 2006年
- 为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果.
- 余正涛樊孝忠郭剑毅耿增民
- 关键词:问答系统相似度向量空间模型潜在语义分析