于磊
- 作品数:6 被引量:120H指数:3
- 供职机构:西南交通大学信息科学与技术学院更多>>
- 发文基金:中央高校基本科研业务费专项资金教育部科学技术研究重点项目国家级大学生创新创业训练计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于改进的χ~2检验的热点词突发性度量研究被引量:1
- 2013年
- 采用原始χ2检验公式进行突发性度量时存在低频词偏袒问题,论文提出了结合TF的改进的χ2检验方法能有效克服该问题。该方法将词频累加和作为文档统计篇数的影响因子β引入原始χ2检验公式从而解决了低频词偏袒问题,提高了度量热点词突发性的精确度。动态突发性热点词库依据改进后的χ2检验公式得到的突发性度量值来建立,并将该词库运用在动态突发性向量空间模型中来发现与追踪网络突发性热点话题。实例验证表明,利用该文的方法进行话题发现与追踪,可以获得有更高的准确率、召回率以及F度量。
- 翟东海聂洪玉崔静静于磊杜佳王佳君
- 关键词:词频
- 最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量:108
- 2014年
- 由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
- 翟东海鱼江高飞于磊丁锋
- 关键词:K-MEANS聚类算法文本聚类
- 基于粒计算的数据分片算法的问题发现被引量:1
- 2011年
- 基于粒计算的数据分片算法在考虑数据本地化的基础上,利用相似粒来划分全集数据。通过分析粒化算法的合并规则,发现在分布式数据库(Distributed Database,DDB)中,如果不考虑问题数据的出现,将会导致粒化算法产生的数据分片结果不可用,所以必须要消除问题数据。文中提出了利用黄金分割的知识进行校验,降低问题数据的产生,具有一定的可行性。文中指出如果无法保证数据的准确性,就无法使用该算法,并详细分析该算法的实际效用,对该算法的应用做了一定的限制。
- 于磊罗谦张林林
- 关键词:数据分片黄金分割
- 基于条件随机场的敏感话题检测模型研究被引量:7
- 2014年
- 敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽取特征词项,并结合敏感词汇库,将待检测文档和敏感话题类别分别表示为条件随机场中的观察序列和状态序列,再利用敏感话题类别中的先验知识来构造特征函数,从而使观察序列和状态序列建立联系。将待测文档中的特征项根据概率标注为敏感话题类别中的词项,在此过程中采用Viterbi算法对观察序列的可信度进行估计,并依据估计所得的概率值对待测文档中的特征项进行敏感性标注。实例验证结果表明,该算法能够得到较好的准确率、召回率和F度量值。
- 翟东海崔静静聂洪玉于磊杜佳
- 关键词:条件随机场特征函数VITERBI算法
- 基于新的条件熵的入侵检测算法
- 2011年
- 在分析了现有的入侵检测方法的基础上,为了降低入侵检测系统的错检率、降低漏检率和提高实时性,提出了一种新的检测方法:基于新的条件熵的入侵检测算法。本算法在考虑信息论有关理论的基础上,利用信息熵的知识对收集到的数据进行离散化。通过分析离散化后的数据,利用新的条件熵的知识约简方法去除冗余属性,生成检测规则,然后用来分析入侵数据。实验结果表明:基于新的条件熵的入侵检测算法与基于BP神经网络和支持向量机的入侵检测算法比较,可以有效地提高入侵检测系统的检测率,降低错检率。该算法的检测率提高7%左右,能为信息系统提供很好的入侵检测服务。
- 罗晓于磊罗谦
- 关键词:离散化入侵检测
- 基于多槽哈夫曼Trie树的规则引擎快速匹配算法被引量:3
- 2011年
- 为了提高机场类企业数据在海量规则集合中的匹配能力,提出了基于多槽哈夫曼Trie树(MSTHTrie)的规则引擎快速匹配算法。该算法充分利用了规则点属性名数与规则条数之间的不对称特性,将对规则的线性比对转换为对多槽的并行比对,从而在稳定的空间复杂度下提高了规则引擎的匹配效率。首先对通用规则进行了严格的形式化描述,并在合理假设条件下证明了槽内规则分布命题和动作数定理;然后基于动作数定理提出了简化操作符的MSH tree算法;随之扩展操作类型提出了MSHTrie算法,使规则引擎有了普适性;最后在国内枢纽机场的业务数据上完成对比实验,表明新算法在空间复杂度上较传统线性匹配算法节约了52.6%,匹配性能上与Policytree算法相比提高了21.3%。
- 罗谦唐常杰于磊郑皎凌
- 关键词:规则引擎哈夫曼树TRIE树