郑伟
- 作品数:5 被引量:11H指数:2
- 供职机构:沈阳航空工业学院更多>>
- 发文基金:教育部科学技术研究重点项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学环境科学与工程更多>>
- 潜在语义索引中特征优化技术的研究被引量:8
- 2009年
- 潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete—Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%~15%时,其F1值分别提高了6.5770%,1.9928%和3.3614%。
- 季铎郑伟蔡东风
- 关键词:计算机应用中文信息处理潜在语义索引奇异值分解
- 潜在语义索引中特征优化技术的研究
- 潜在语义索引被广泛应用于信息检索、文本分类、自动问答系统等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的...
- 郑伟季铎蔡东风
- 关键词:潜在语义索引奇异值分解
- 文献传递
- 基于相似序列的增量式K均值聚类算法
- 本文通过构建文本的线性序列,并分析该序列相似度曲线的变化,针对增量式K均值聚类算法,提出一种基于相似序列的初始点和调整对象的选择方法。其中初始点的选择改进了聚类算法的性能,调整对象的选择降低了算法在迭代调整中处理的数据量...
- 季铎蔡东风郑伟于水
- 关键词:文本聚类K均值
- 文献传递
- 基于文本最小相似度的中心选取方法被引量:3
- 2008年
- 基于划分的聚类算法是一种局部最优算法。聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响。初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心。实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高。
- 郑伟季铎蔡东风王爽
- 关键词:文本聚类
- 采油厂联合站生产作业条件危险性评价
- 生产作业条件危险性评价法是对生产作业单元进行的危险性评价,其评价结果可以比较直观地反映出生产作业各岗位的危险程度,为企业安全管理提供指导。本文在对采油厂联合站各岗位深入调查的基础上,分析和评价了该站11个岗位的作业条件危...
- 郑伟佟淑娇
- 关键词:危险度分级
- 文献传递