孙婧
- 作品数:4 被引量:82H指数:2
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:上海市科学技术发展基金国家自然科学基金上海市科学技术委员会资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征迭代的短文本去重算法被引量:4
- 2015年
- 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。
- 曹海孙婧史喜斌
- 关键词:共享最近邻迭代去重
- OMisy:一个面向股吧数据的观点挖掘系统被引量:1
- 2015年
- 市场情绪对股票走势具有重要影响,了解市场情绪有助于更准确地判断股票走势.股票网络论坛(简称股吧)作为一种信息载体和传播途径,相比其他传播载体更具针对性和实时性,为研究投资者情绪倾向提供了丰富的数据来源.设计并实现了一个面向股吧数据的观点挖掘系统,提供股吧数据获取、情绪倾向分析、热度分析、结果可视化和数据处理等功能.为用户对市场情绪掌握和股票趋势分析提供有力支持.
- 张一舟曾剑平孙婧孙婧
- 关键词:情感分析数据挖掘投资者情绪股票走势
- 推荐系统研究进展被引量:77
- 2015年
- 推荐系统(recommender system,RS)是当今网络时代的产物,在技术研究和应用方面取得了很多成果。综述了推荐系统领域的研究状况和进展,提出了3个研究阶段,并指出了每个阶段标志性意义的事件。在当前大数据环境下,从数据的角度看推荐,提出了推荐系统新的分类方法,即根据推荐时所使用的数据不同分为7种类别,同时指出了每个类别使用了哪些推荐模型及其优缺点。提出了在大数据环境下进行推荐是未来推荐系统研究的一个大方向,分析了推荐视角下的大数据机制。最后比较和总结了推荐系统的评价指标,给出了未来的主要研究方向和可能的突破点。
- 朱扬勇孙婧
- 关键词:推荐系统个性化协同过滤大数据
- CMMDI:一个中医多元数据整合平台
- 学的辨证论治是一个综合处理众多信息、实现证候分类和判断的过程.提出了中医多元数据整合平台CMMDI,整合研究了中医传统理论体系指导下产生的各类数据,重点研究了对海量异构数据的采集与整合方案,其中包括对文献数据、实验数据、...
- 孙婧熊赟
- 关键词:中医学辨证论治多元数据