戴斌
- 作品数:3 被引量:4H指数:2
- 供职机构:中国矿业大学计算机科学与技术学院更多>>
- 发文基金:江苏省基础研究计划中国矿业大学科技基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于谱聚类的文本相似性研究
- 2012年
- 为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。
- 戴斌
- 关键词:语义相似性语义结构潜在语义分析谱聚类语义空间
- 基于旋转投影统计特征的手写数字识别方法被引量:2
- 2011年
- 通过抽取数字的轮廓和骨架来提取几何特征,可以有效地反映手写数字的细节,但手写数字的不规范性导致其识别率并不高。运用统计分析理论可以克服这一缺点。首先提出了基于投影间隔比率和间隔变化的特征提取方法,通过数字投影计算间隔的像素数比率和变化趋势,并将其归一化作为特征向量。进一步通过旋转投影基准线,增加特征向量之间的正交性以减少信息冗余,基于这一思路提出旋转投影的识别方法。理论分析和实验证明了旋转投影可以在相同特征数量的情况下达到更高的识别率,并给出了推荐参数。此外,通过旋转投影,直接解决了倾斜数字的识别问题。
- 庄伟雷小锋宋丰泰戴斌谢昆青
- 关键词:统计分析朴素贝叶斯手写数字识别
- 基于傅里叶变换和连通图的聚类分析方法被引量:2
- 2012年
- 聚类是假设数据在具有某种群聚结构的前提下根据观察到的无标记的样本发现数据的最优划分。针对已有的聚类算法存在的缺点,假设数据样本的结果簇是密集的,且簇与簇之间区别明显,基于该假设提出一种基于傅里叶变换和连通图的聚类分析方法 FGClus。首先针对每个样本点计算k阶距离矩阵并序列化作为离散傅里叶变换的输入信号;然后抽取频域内幅值最小的复数项并构造输入序列进行傅里叶逆变换,得到在时域空间中的最佳阈值;最后利用该阈值结合连通图指导最终的聚类过程。实验表明,FGClus算法克服了K-means算法聚类前需确定聚类个数、聚类结果对初始代表点的选取敏感、只能聚类球状数据等缺点,取得了良好的聚类效果。
- 巨瑜芳雷小锋戴斌庄伟宋丰泰
- 关键词:离散傅里叶变换连通图最佳阈值