广西教育厅科研项目(201012MS010) 作品数:9 被引量:33 H指数:4 相关作者: 蒙祖强 许珂 周石泉 黄柏雄 林啓峰 更多>> 相关机构: 广西大学 珠海城市职业技术学院 广西民族师范学院 更多>> 发文基金: 广西教育厅科研项目 国家自然科学基金 广西壮族自治区自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
词共现网络的遗传聚类在话题发现中的应用 被引量:7 2013年 基于词聚类的话题发现方法中,普遍存在聚类结果不稳定(聚类结果较大程度依赖于聚类对象的初始化操作)的问题,为此通过将文档集建模为词共现网络,设计词共现网络的过滤方法,然后提出基于词共现网络的遗传聚类算法,实现从网络文档中提取热点话题。与已有方法相比,该方法所发现的话题相对稳定,这在实验中亦得到了验证,因而该方法在实际应用中具有更好的现实意义。 杨菲 黄柏雄关键词:遗传聚类算法 一种快速获取候选3项集的Apriori改进算法 被引量:1 2012年 为了解决Apriori算法中生成候选二项集不能剪枝、多次扫描数据库中对计算支持度不产生作用的项等缺点,提出了使用矩阵直接生成频繁二项集及候选三项集,使用链表删除对计算支持度不产生作用的数据的方法。通过设置不同的最小支持度将两个算法的运行时间进行对比,根据结果分析证明改进后的算法比Apriori算法执行效率高。 邓广彪 蒙祖强关键词:APRIORI算法 候选项集 链表 不完备不一致决策系统的最大分布约简及计算方法 被引量:1 2011年 不完备不一致决策系统中,条件属性下的相容划分与决策属性下的等价划分形成了复杂的交集,导致出现了多种不同的约简概念,从而使约简问题变得更加复杂。本文将最大分布约简的概念引入不完备不一致决策系统中,然后研究其在不完备不一致决策系统中的性质,发现其核属性不具备传统约简核属性通常所具备的继承特性,因而不能通过增加属性的方法来计算此类约简。但是通过不断的属性测试和删除操作,成功地构造了不完备不一致决策系统中计算最大分布约简的算法,并给出了算法的描述和复杂度分析。通过实例分析,本文算法是有效的且具有实际意义。 蒙祖强 许珂 周石泉关键词:决策系统 不完备性 最大分布约简 基于语义关联和信息增益的TFIDF改进算法研究 被引量:8 2012年 基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 许珂 蒙祖强 林啓峰关键词:特征提取 语义关联 信息增益 文本分类 一种运用相容语义块约简的网络话题检测方法 被引量:1 2013年 针对已有基于词聚类的话题检测方法存在的缺点,本文利用网络文档的半结构化特征提供的语义信息以及利用词在语义上下文的共现频率定义词之间的语义相似度,然后构建文档集的词共现语义网络,实现词之间语义关联的建模;据此提出相容语义块的概念,并通过对相容语义块的构建、分裂和约简来实现对话题的检测,进而提出一种基于相容语义块约简的网络话题检测方法.该方法获得的结果稳定,表现话题的词集简短而富有表达力,因而十分适合于网络话题检测,实验亦说明它的这些优点以及它的有效性和可行性. 蒙祖强 徐杨 杨俊瑶关键词:语义相似度 一种新的网络热点话题提取方法 被引量:6 2013年 网络热点话题提取是网络舆情分析的重要手段,已成为信息检索领域研究的热点内容之一.传统聚类方法因其聚类结果不允许相交等因素,暴露了其在基于(主题)词聚类进行话题发现中的诸多缺点.本文基于小世界理论建立词的共现网络模型并去除大量冗余词,然后运用极大相容块技术并基于过滤后的词共现网络实现对相交话题的提取,获取网络热点话题.本文方法与传统聚类方法有本质区别,基于(主题)词聚类进行话题发现具有独特的优势,较好克服了已有方法的缺点.实验说明了本文方法对提取网络热点话题是有效和可行的,比同类算法具有更好的性能,且具有较好的可伸缩性. 蒙祖强 黄柏雄关键词:词聚类 文本聚类 依存分析和HMM相结合的信息抽取方法 被引量:4 2012年 信息抽取是文本信息处理的一个重要环节,当前的信息抽取研究工作大多针对半结构化的文本。针对自由文本,提出一种依存分析和HMM相结合的文本信息抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,结合HMM易于建立、适应性好、抽取精度较高的优势,实现自由文本的信息抽取。实验结果表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,说明了算法的有效性,为文本信息的抽取提供了新思路。 袁璐 蒙祖强 许珂关键词:信息抽取 自由文本 隐马尔可夫模型 依存分析 基于数据相容填补的极大相容块构造算法 被引量:1 2012年 极大相容块技术在不完备信息处理方面具有一定优势,但极大相容块获取本身是个耗时的过程。通过分析不完备信息系统中极大相容块的性质特点,给出极大相容块中不完备数据的相容填补方法;在不完备信息系统中使用相容填补方法,得到一种新的极大相容块构造算法;基于构造算法的特点,引入决策树存储结构对算法进行优化。使用标准的数据集验证了构造算法的有效性。实验结果表明,构造算法在较大规模的数据集上有较好的性能。 周石泉 蒙祖强关键词:粗糙集 不完备信息系统 决策树 不一致决策系统中基于粒度计算的广义决策规则获取方法研究 被引量:5 2012年 由于数据中存在噪声等主观和客观原因,不一致数据的出现和存在已变得十分普遍,因此需要发展一些能够直接分析和处理不一致数据的方法和技术。研究了不一致决策系统中的广义决策规则获取问题,基于粒度计算探讨了决策规则获取的基本原理,据此给出了计算所有极小广义决策规则集的一般方法。该方法不需要构造分辨矩阵,且可以并行执行,从而可降低空间开销和提高计算效率。此外,可对该方法进行拓展,以用于计算其他类型的极小决策规则集。这为不一致决策系统中的规则获取提供了一般方法。 蒙祖强 周石泉关键词:粒度计算