公共文化服务平台

Construction of unsupervised sentiment classifier on idioms resources被引量：2: 2014年; Sentiment analysis is the computational study of how opinions, attitudes, emotions, and perspectives are expressed in language, and has been the important task of natural language processing. Sentiment analysis is highly valuable for both research and practical applications. The focuses were put on the difficulties in the construction of sentiment classifiers which normally need tremendous labeled domain training data, and a novel unsupervised framework was proposed to make use of the Chinese idiom resources to develop a general sentiment classifier. Furthermore, the domain adaption of general sentiment classifier was improved by taking the general classifier as the base of a self-training procedure to get a domain self-training sentiment classifier. To validate the effect of the unsupervised framework, several experiments were carried out on publicly available Chinese online reviews dataset. The experiments show that the proposed framework is effective and achieves encouraging results. Specifically, the general classifier outperforms two baselines(a Na?ve 50% baseline and a cross-domain classifier), and the bootstrapping self-training classifier approximates the upper bound domain-specific classifier with the lowest accuracy of 81.5%, but the performance is more stable and the framework needs no labeled training dataset.; 谢松县王挺; 关键词：非监督分类资源建设自然语言处理

基于序列标注的全词消歧方法: 2012年; 全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。; 周云王挺易绵竹张禄彭王之元; 关键词：隐马尔可夫模型

网络舆情信息源影响力的评估研究被引量：29: 2011年; 文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。; 郭岩刘春阳余智华张瑾戴媛; 关键词：网络舆情 PAGERANK

基于热传导模型的更新摘要算法被引量：1: 2012年; 更新摘要除了要解决传统的面向话题的多文档摘要的两个要求——话题相关性和信息多样性,还要求应对用户对信息新颖性的需求.文中为更新摘要提出一种基于热传导模型的抽取式摘要算法——HeatSum.该方法能够自然利用句子与话题,新句子和旧句子,以及已选句子和待选句子之间的关系,并且为更新摘要找出话题相关、信息多样且内容新颖的句子.实验结果表明,HeatSum与参加TAC09评测的表现最好的抽取式方法性能相当,且更优于其它基准方法.; 杜攀郭嘉丰张瑾程学旗张旭

面向网络论坛的突发话题发现被引量：16: 2010年; 每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。; 陈友程学旗杨森; 关键词：计算机应用中文信息处理网络论坛时间序列

在线Web挖掘中的计算资源动态平衡: 根据当前在线Web信息挖掘系统中文档采集的动态变化问题，将云计算技术应用到Web信息挖掘中，利用云计算易扩展，按需使用的理念，提出了三种计算资源动态平衡的算法，来满足文档处理的实时性和提高计算资源的利用率。通过分析对比验...; 安伦周斌贾焰; 关键词：云计算实时性

网络信息安全测试平台设计与实现被引量：6: 2013年; 网络信息已经成为人们日常工作和生活的重要载体,在给人们带来便利的同时,其安全防护也面临日趋严重的挑战.分析了网络信息存在的主要安全问题和面临的威胁的主要来源,针对传统的网络信息安全测试平台存在的不足,提出了一种新型的、基于控制与实验相互分离的双层网络信息安全测试系统平台的设计方案.该系统能够快速地、可重复地、自动化地部署研究人员所需要的测试环境.文中详述了系统的工作原理和功能架构,并在最后对系统的部分功能进行的验证展示.; 金松昌杨树强尹洪李爱平杨慧宇; 关键词：网络信息安全网络攻防仿真测试

一种基于空间映射及尺度变换的聚类框架被引量：2: 2010年; 传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。; 曾依灵许洪波吴高巍程学旗白硕; 关键词：计算机应用中文信息处理文本聚类空间映射

一种基于Map Reduce的分布式文本数据过滤模型研究: 该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际...; 李虎邹鹏贾焰周斌; 关键词：信息过滤 MAPREDUCE 向量空间模型 TFIDF; 文献传递

基于用户反馈的top-k查询修改算法被引量：2: 2014年; top-k查询主要用来从海量的数据中返回用户最为偏好的k个对象.目前已经有大量的研究工作致力于top-k查询中的性能研究,近年来针对top-k查询结果进行解释的研究逐渐得到了广泛的关注.在top-k查询中,由于用户不能精确地指定自己的偏好,因此针对top-k查询的结果用户可能产生这样的质疑:"既然连对象p都出现在top-k结果中,为什么我期望的对象m块没有出现在top-k结果/"针对用户这样的疑问,提出了一种基于用户反馈的top-k查询修改算法,该算法首先定义了用来衡量初始化top-k查询变化的评估模型函数,基于该评估模型函数,使用抽样方法得到候选权重集合,针对每一个候选权重通过渐进式top-k算法来得到新的最优化查询.最后在模拟数据上验证了提出算法的效率.; 张建锋韩伟红樊华邹鹏贾焰; 关键词：TOP-K查询用户反馈

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60933005)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60933005)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈