李林
- 作品数:4 被引量:11H指数:2
- 供职机构:北京航空航天大学计算机学院更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- LDA模型参数有偏估计方法
- 2010年
- LDA(Latent Dirichlet Allocation)等基于隐含topic的模型在离散数据处理中的应用逐渐增多.然而LDA使用Dirichlet分布作为隐含topic的分布函数,未能很好表示各topic之间相互关系.目前常见改进方法是通过DAG(Directed Acyclic Graph)图或对数正态分布等其他分布函数表达topic之间的关系.本文通过参数有偏估计的方法,考虑topic混合过程中词项上的重叠关系,改变topic内部词项分布,最终改进LDA模型性能.在回顾一些基础内容后,重点介绍参数有偏估计及简化计算方法.最后通过LDA模型在信息检索中的实验验证这种改进的有效性,并初步分析模型参数选用规律.
- 袁伯秋周一民李林
- 关键词:LDAWORDNET
- 垃圾邮件处理中LDA特征选择方法被引量:2
- 2009年
- 垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方法优于通常的IG、MI特征选择方法;测试过滤器的过滤性能与其他过滤器相当。
- 袁伯秋周一民李林
- 关键词:垃圾邮件过滤
- 基于LEON开源软核的SoC平台构建与测试被引量:9
- 2007年
- 针对某导航SoC芯片设计中高安全性、定制算法和高速数学运算处理的需求,讨论LEON微处理器软核方案在开源、配置灵活和运算能力强等方面的优势;分析在FPGA开发平台上固化的LEON核上移植Linux操作系统的实现和调试过程中的特殊点和难点;在该软硬件平台上进行数学运算及导航算法性能测试,为基于LEON开源软核的嵌入式系统的定型、配置和研发提供必要参考。
- 李林张晓林杨希
- 关键词:IP软核嵌入式LINUX开源
- 传递信息分类的句子间相似性度量
- 2009年
- 提出了一种计算英文句子间相似度的方法。基于句子所传递的信息——其描述的对象、描述对象的属性和动作,首先将待比较的两个句子进行语块分析,并从中提取以上三个方面的信息;然后通过语义向量的方法,分别计算两个句子在这三个方面的相似度;最后将它们结合起来作为两个句子的整体相似度,并通过训练得到最优的结合参数。实验表明,提出的方法与目前计算句子间相似度的方法相比更加符合人工判断句子间相似度的过程,表现出更高的准确性,达到了较高的性能指标。
- 李林周一民
- 关键词:句子相似度词汇语义相似度