汤世平 作品数:12 被引量:189 H指数:7 供职机构: 北京理工大学计算机学院 更多>> 发文基金: 北京市自然科学基金 国家教育部博士点基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于潜在语义分析的本体空间表示模型研究 被引量:2 2008年 针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型。该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度。实验结果表明,与向量空间模型相比,该模型的表示效果更好。 汤世平 樊孝忠 朱建勇关键词:潜在语义分析 基于云理论的数据属性约简 被引量:2 2006年 提出了一个基于云模型的数据属性约简新算法,该算法借助云模型将每个连续属性上的定量数据转化为定性概念,然后利用此定性概念计算每个条件属性对决策属性的重要性,最后以贪婪算法的思想求解约简属性,从而解决了当前约简算法对连续属性必须离散化的问题。同时对算法中可能遇到的冲突问题给出了初步的解决方案。实验表明,该算法在降低时间复杂度的同时能求出更好的属性集约简。 林培光 汤世平 余正涛关键词:云模型 属性约简 用表格数据库进行PLC系统的标准化设备设计 了计算机辅助设计的一种新方法:以建立表格数据库的方式,通过数据转换,完成PLC系统的标准化设备设计。给出了表格数据库的基本格式及建表方法。该设计方法已在若干工程项目上获得良好的应用效果。 周宇 高联群 汤世平 张宝岭关键词:可编程控制器 CAD 数据库 一种基于多特征因子改进的中文文本分类算法 被引量:11 2017年 采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。 叶敏 汤世平 牛振东关键词:文本分类 面向大数据的SVM参数寻优方法 被引量:12 2010年 研究数据回归问题,进行快速寻优,传统SVM参数寻优因采用大范围遍历搜索算法,需消耗大量时间,不适用于对大数据集进行训练。基于均匀设计与自调用支持向量回归,为缩短寻优时间,加快速度,提出了一种有效降低搜索时间的策略。根据均匀设计产生27个具有代表性参数组合,每个组合对训练集经交叉测试得其均方误差MSE,再以MSE为目标函数,通过自调用支持向量回归建立其与27个参数组合之间的关系模型。基于关系模型预测729个参数组合对应的MSE,并以MSE最小寻找最优参数组合。3个实例数据集的仿真结果表明,新方法在保证预测精度的同时,大幅度缩短了训练建模时间,为大数据集支持向量机参数选择提供了新的有效解决方案。 龚永罡 汤世平关键词:均匀设计 支持向量回归 大数据 文本情感分析综述 被引量:119 2013年 以文本颗粒度为视角,从情感词抽取、语料库和情感词典构建、评价对象与意见持有者分析、篇章级情感分析、实际应用五个方面对文本情感分析文献进行了梳理,并做出必要评述。指出当前情感分析系统的准确率普遍不高,进一步研究的重点在于:自然语言处理的研究成果在文本情感倾向分析中更广泛和贴切的应用;选取文本情感倾向分类的特征和方法;利用现有语言工具和相关资源,规范、快速地构造语言工具和相关资源并应用。 杨立公 朱俭 汤世平关键词:文本情感分析 语料库 情感词典 探索用户自然输入标记及其在构建分词语料库中的作用 被引量:2 2018年 当分词算法优化到接近极限时,分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度。因此,如何快速、省力、自动化地构建具有较完备的分词语料库是一个亟待解决的问题。该文对用户输入过程中留下的大量可用且珍贵的自然分词信息进行了探索和研究,为自动构建分词语料库提供了一种新的观点。前人的研究中,对用户在输入过程中留下的自然分词标记信息并没有关注,而该文通过实验验证了这些分词标记信息确实可以用于构建分词语料库,并且具有相当好的效果。其中经过甄别优秀用户在输入时留下的分词标记十分接近标准的分词结果。该文使用分类模型结合投票机制的方法找到三个此类优秀用户,获取了他们带有输入标记的文本,快速构建了分词训练语料库,极大地提升了分词器的精度;更重要的是,揭示并验证了自然输入分词标记信息的有效作用。 张大奎 尹德春 汤世平 毛煜 樊孝忠关键词:中文分词 投票机制 基于多示例学习的题库重复性检测研究 被引量:8 2005年 基于多示例学习方法对题库重复性检测算法进行了改进,其基本思想是:将包含多个子问题的试题重复性检测转化为多示例学习问题.采用基于前缀树的高频词抽取算法抽取试题的内容特征,避免了对同义词典的依赖.在此基础上,结合试题的元数据特征提出试题相似度计算方法.在真实题库基础上进行的实验结果显示,该方法简便可行,正确率和查全率分别达到91.3%和92.3%,为进一步实现题库系统的整合奠定了基础. 汤世平 樊孝忠关键词:多示例学习 基于潜在语义分析的文本连贯性分析 被引量:3 2008年 文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域。基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构。实验结果表明,该方法是有效的,其准确率达到74.96%。 汤世平 樊孝忠 朱建勇关键词:向量空间模型 潜在语义分析 基于J2EE的在线测评系统的研究与设计 被引量:16 2004年 研究了在线测评系统的策略,重点介绍了抽题组卷策略,提出了动态确定题目难度系数的算法和随机组卷算法模型;在线评估是根据所做题目的知识点和历史记录,组织并生成个性化的学习计划,引导和督促学生学习。按照研究的策略,在J2EE平台上进行了设计,该文还介绍了系统所用的基于J2EE的主要技术。 康海燕 樊孝忠 汤世平关键词:J2EE