公共文化服务平台

共 5 条记录，以下是 1-8

全选清除导出

排序方式：

基于序列标注的全词消歧方法: 2012年; 全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。; 周云王挺易绵竹张禄彭王之元; 关键词：隐马尔可夫模型

一种基于Map Reduce的分布式文本数据过滤模型研究: 该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际...; 李虎邹鹏贾焰周斌; 关键词：信息过滤 MAPREDUCE 向量空间模型 TFIDF; 文献传递

一种新型的层次化动态社区并行计算方法被引量：9: 2012年; 文中提出了一种可并行分解的层次化动态社区发现算法D-SNCD(Dynamic Social Network CommunityDiscovery).D-SNCD算法充分利用复杂动态社会网络变化的局部性,对算法生成的层次化社区树HOT(Hierar-chical cOmmunity Tree)的分枝进行选择性更新.与传统的对动态社会网络直接采用快照方式进行社区发现相比,D-SNCD算法在效率上取得了明显的提高.由于D-SNCD是对已有的静态社区并行计算方法P-SNCD(ParallelSocial Network Community Discovery)的进一步扩展,因而D-SNCD保持着P-SNCD算法的高扩展性和高分辨率等优点.另外,D-SNCD算法对用户参数输入要求简单.严格的数学证明和充分的实验数据保证了整个算法的正确性和有效性.; 林旺群邓镭丁兆云吴泉源贾焰周斌; 关键词：并行计算

Mining User Interest in Microblogs with a User-Topic Model被引量：17: 2014年; Microblogs have become an important platform for people to publish,transform information and acquire knowledge.This paper focuses on the problem of discovering user interest in microblogs.In this paper,we propose a topic mining model based on Latent Dirichlet Allocation(LDA) named user-topic model.For each user,the interests are divided into two parts by different ways to generate the microblogs:original interest and retweet interest.We represent a Gibbs sampling implementation for inference the parameters of our model,and discover not only user's original interest,but also retweet interest.Then we combine original interest and retweet interest to compute interest words for users.Experiments on a dataset of Sina microblogs demonstrate that our model is able to discover user interest effectively and outperforms existing topic models in this task.And we find that original interest and retweet interest are similar and the topics of interest contain user labels.The interest words discovered by our model reflect user labels,but range is much broader.; HE LiJIA YanHAN WeihongDING Zhaoyun; 关键词：用户兴趣 GIBBS抽样狄利克雷 LDA

面向海量数据非关系数据库的测试基准研究: 海量数据非关系数据库虽然起步晚,但其具有传统关系数据库不能比拟的优势和特点,因此发展十分迅速。在当下云计算风起云涌,数据量越来越庞大,数据访问和数据处理越来越频繁的时代,海量数据非关系数据库越来越发挥其重要作用。然而,使...; 喻承杨树强肖英; 关键词：NOSQL 数据库; 文献传递

基于语义密度的名词消歧算法被引量：2: 2012年; 提出了一种以概念相关性为主要依据的名词消歧算法。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后,再进行消歧。还提出了一种在WordNet上的类似LSH的语义哈希,从而大大降低了语义密度的计算复杂度以及整个消歧算法的计算复杂度。在SemCor上对该算法进行了测试和评估。; 何文垒刘功申; 关键词：消歧

针对HBase的MapReduce访问接口的优化: 现有的HBase提供的MapReduce访问接口存在数据读取速度较慢的问题。针对此问题本文提出了一种改进方法,该方法不以原来的逻辑存储单元Region作为任务分配的基本单位,而是以HBase的物理存储单元Block作为任...; 田胜利徐锡山杨树强华中杰; 关键词：HBASE MAPREDUCE; 文献传递

结构化集成学习垃圾邮件过滤被引量：12: 2012年; 为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5).; 刘伍颖王挺; 关键词：垃圾邮件过滤

全选清除导出

共1页<1>

国家高技术研究发展计划(2010AA012505)