公共文化服务平台

采用词向量注意力机制的双路卷积神经网络句子分类模型被引量：9: 2018年; 针对句子中不同的词对分类结果影响不同以及每个词对应的词向量受限于单一词向量训练模型的特点,提出一种基于词向量注意力机制的双路卷积神经网络句子分类模型(AT-DouCNN).该模型将注意力机制和卷积神经网络相结合,以不同训练算法得到的词向量同时作为输入,分别进行卷积和池化,并在全连接层进行融合,不仅能够使得具体分类任务下句子中的关键信息更易被提取,还能够有效地利用不同种类的词向量得到更加丰富的句子特征,进而提高分类的准确率.实验结果表明:所提出的模型在3个公开数据集上的分类准确率分别达到50.6%、88.6%和95.4%,具有良好的句子分类效果.; 郭宝震左万利王英

基于清晰有理数均值的新匹配聚类算法: 2018年; 通过改进清晰有理数均值的方法,提出一种新匹配聚类算法.首先计算每条数据的清晰有理数均值,然后与匹配项比较,得出聚类结果,解决了人工标注型数据的聚类问题.将该方法在反欺诈网页领域中进行了检测和验证,并与使用同一名称但不同类型数据集的K最近邻算法进行比较,实验结果表明,该方法在反欺诈网页领域中比K最近邻算法更有效,同时也证明了新匹配聚类算法在人工标注型数据上聚类具有合理性.; 尚靖博左万利; 关键词：聚类数据挖掘

基于多分类器的Deep Web入口发现: Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发...; 王英左万利王鑫彭涛; 关键词：本体主题爬行决策树; 文献传递

基于主观Bayes方法的用户信任关系判别被引量：2: 2016年; 基于主观Bayes方法的信任关系判别方法,对社会网络中的用户信任关系进行预测.该方法综合利用现有的信任关系以及用户之间的评分关系,以用户对另一用户的评分记录为证据,基于监督学习得到的规则集,通过证据合取产生对"信任"和"不信任"的量化表示,利用多值逻辑方法推测并传播用户之间的信任关系.对比实验结果表明,该方法能以较高的准确率解决社会网络中的用户信任关系预测问题.; 王泊王俊华左万利; 关键词：信任关系主观BAYES方法社会网络

一种基于本体的文本聚类方法被引量：13: 2010年; 基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.; 朱会峰左万利赫枫龄彭涛纪文彦; 关键词：本体 WORDNET

基于相似度投票的社区划分改进算法被引量：2: 2018年; 为快速、准确地对日益复杂的大规模社会网络进行社区划分,提出一种基于相似度投票的改进算法替代Louvain算法的底层划分,解决了Louvain算法在底层划分收敛速度较慢,并出现大量重复计算的缺点,使社区划分更迅速.由真实社会网络数据实验结果可见,与Louvain算法相比,改进算法在保持模块度基本不变的情况下,效率显著提高,划分的社区数更少、社区结构更紧凑.; 冯成强左万利王英; 关键词：社会网络模块度

免疫算法优化的大气质量评价模型及其应用被引量：9: 2011年; 针对传统免疫克隆选择算法搜索精度不高的不足,提出了一种改进的免疫克隆选择算法,即引入疫苗接种策略和局部高斯变异算子的免疫克隆选择算法.在疫苗提取、选取和接种过程中引入轮盘赌选择、二进制位基因位选取和接种策略,克服了传统免疫克隆选择算法没有抗体基因交叉的现象,提高了产生优良抗体的比率;通过引入局部高斯变异算子,利用高斯变异的小步长不断地自适应调整,提高了算法的局部搜索能力.此外,算法还采用了扩大搜索空间策略,避免算法陷入局部极值,提高了算法的全局搜索能力.在此基础上,提出了基于免疫克隆选择算法的大气质量评价模型,并将其应用于大气质量评价领域.实验结果表明,该算法有效地提高了求解问题的精度和执行效率,提出的评价模型具有较好的实用性和应用前景.; 韩旭明左万利王丽敏时小虎; 关键词：免疫克隆选择算法疫苗接种参数优化

基于证据理论的单词语义相似度度量被引量：4: 2015年; 单词语义相似度度量一直是自然语言处理领域的经典和热点问题,其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响.本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径.首先,借助通用本体Word Net获取证据;其次,利用散点图分析证据的合理性;然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数,并在此基础上量化单词语义相似度.在数据集R&G(65)上,对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,相关度达到0.912,比当前最优方法 P&S高出0.4个百分点,比经典算法re LHS、dist JC、sim LC、sim L和sim R高出7%～13%;在数据集M&C(30)和Word Sim353上也取得了比较好的实验结果,相关度分别为0.915和0.941;且算法的运行效率和经典算法相当.实验结果显示使用证据理论解决单词语义相似度问题是合理有效的.; 王俊华左祥麟左万利; 关键词：词计算统计学习证据理论

基于本体增量学习的主题爬行: 2010年; 在面向领域的信息搜索中,本体作为相关的领域知识往往有助于改善搜索效果,在信息检索中被广泛应用。基于本体增量学习的主题爬行技术的研究工作主要包括:首先,利用本体对领域概念及关系的描述作为网页主题判定的依据;其次,在爬行过程中,将学习得到的新概念和关系加入到本体中,以丰富完善领域本体,进而提高主题爬虫的收获率;最后,经过大量的实验数据分析,在词条提取准确率、收获率和响应速度等多个指标方面,证明了所提出的方法是可行的并且是高效的。; 王鑫王英; 关键词：主题爬虫概念树

基于隐喻词扩展的短文本聚类算法被引量：1: 2018年; 针对目前短文本词汇量少、表达形式多样,导致同种类文本聚类方法无效的问题,提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法,以解决短文本包含信息少、词汇表达形式多样的不足.实验结果表明,该算法可有效提升短文本的聚类效果.; 王烨左万利王英; 关键词：文本聚类维基百科

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60973040)