薛冉
- 作品数:3 被引量:7H指数:2
- 供职机构:山东大学更多>>
- 发文基金:山东大学自主创新基金山东省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 基于地理位置服务的用户移动属性的构建和比较
- 位置采集技术的日益普及(如GPS,GSM网络等)促进了我们对空间-时间数据的大规模采集,从而为发现珍贵的关于用户移动位置的信息带来了新的机遇。首先,这些大量的空间-时间信息给我们提供了关于用户移动行为的有用信息,利用这些...
- 薛冉
- 一种基于LDA的Web论坛低质量回帖检测方法被引量:4
- 2012年
- 为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.
- 韩晓晖马军邵海敏薛冉
- 关键词:WEB论坛主题模型主题分布语义特征
- 基于衰退理论的Flickr热点事件检测方法
- 2012年
- 该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出了一种改进的Single-Pass算法进行事件检测,该算法不仅考虑了图片的地理位置信息,而且基于衰退理论(Aging Theory)对检测到的事件进行生命周期建模,以便计算事件在每个时间段的能量值。最后,根据能量值进行事件排序,获得给定时间段内的热点事件。在真实Flickr数据集上的实验结果表明所提出的方法在精确率、召回率和F1测度上优于传统事件检测方法。
- 薛冉马军韩晓晖陈竹敏
- 关键词:视觉词汇地理信息LDA