江苏省社会科学基金(12TQC014)
- 作品数:4 被引量:68H指数:3
- 相关作者:何琳常颖聪何文静何娟郭诗云更多>>
- 相关机构:南京农业大学更多>>
- 发文基金:江苏省社会科学基金国家社会科学基金南京农业大学SRT基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于社会标签的文本聚类研究被引量:8
- 2013年
- 以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。
- 何文静何琳
- 关键词:社会标签聚类方法文本聚类
- 不同标引策略下的文本主题表达质量比较研究被引量:2
- 2014年
- 标引词的选择直接影响期刊文献检索的查全率与查准率,不同的标引源由于所承载文本内容的不同,其所确定的标引词又有所不同。本文分别选取不同权重下的全文、摘要、首尾段和关键句群作为标引源,采用自动抽词标引算法进行主题表达能力测评,通过设置不同的测评指标从不同角度对标引结果进行比较分析,重点讨论不同的标引策略、标引源的权重分配、文本长度、抽词词典规模等多种因素对主题表达质量的影响。通过定量比较,本文发现待标引语料与标引策略之间存在一定的相关关系,对全文文本进行二次加工、加强语义支持工具的建设仍然是提高主题标引质量的有效措施。
- 何琳常颖聪
- 关键词:标引质量
- 科研人员数据共享意愿研究被引量:53
- 2014年
- 科研人员作为科学数据的生产、使用和管理者,是否积极倡导并参与数据共享将直接影响到科学数据公开获取的进程和发展。相对于国外来自期刊杂志、基金管理委员会各界等对数据共享数据管理的规定,国内尚没有完善的数据共享政策,数据共享还没有得到普及。文章引入意向影响模型理论TPB和TAM建立科学数据共享意愿模型,研究影响科研人员数据共享行为意愿的因素,采用问卷调查的方法进行数据采集,利用AMOS17.0对假设进行了验证,结果显示态度、主观规范是直接影响因素,感知行为控制、感知风险、感知有用性为间接影响因素。最后根据对验证结果的具体分析,对如何促进科研人员数据共享提出了建议。
- 何琳常颖聪
- 关键词:数据共享结构方程模型计划行为理论技术接受模型
- 基于社会标签的中文图书自动分类研究被引量:5
- 2014年
- 【目的】通过对社会标签的规范控制,提高社会标签质量,提升其在文本自动分类中的能力。【方法】提出一种"内核受控,外壳非控"的分类模型,通过建立"社会标签–主题词"概念空间,实现利用主题词对标签词的规范控制。【结果】实验结果表明本文提出的基于社会标签的中文图书自动分类方法在综合考虑成本、效率和效果的前提下,具有较强的可行性。【局限】数据获取数量有待进一步增加,同时"社会标签–主题词"概念空间中概念之间深层次语义关系的识别还有待完善。【结论】为提高社会标签质量、提升其文本自动分类能力,提供一种可行方案。
- 何琳万健何娟郭诗云
- 关键词:社会标签中文图书