王雪颖
- 作品数:9 被引量:38H指数:4
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金江苏省“333”工程基金项目更多>>
- 相关领域:文化科学自动化与计算机技术经济管理文学更多>>
- 题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域被引量:13
- 2017年
- 【目的/意义】随着数字文本数量的增加,题名与关键词作为文本表示方式之一,对文本的揭示作用日益突显。【方法/过程】基于我国农产品品牌评价领域的相关文献,对文章的题名与关键词分别进行了聚类分析,并对两者的聚类结果进行了对比,发现基于题名与基于关键词的聚类结果不完全一致,但存在交集,进而将题名与关键词叠加后进行聚类,经过分析认为聚类结果得到了改善。【结果/结论】发现题名与关键词对文献内容的揭示程度不同,且均不能良好地概括农产品品牌评价领域的文献内容,二者融合后结果得到改善;同时对今后研究中论文题名与关键词的选取提出了一些建议。
- 张紫玄王雪颖王昊
- 关键词:文本聚类K-MEANS
- 面向汉语历史事件元素识别的深度学习模型构建及实现被引量:4
- 2021年
- [目的/意义]命名实体识别作为文本挖掘领域的一个研究重点,是信息检索、问答系统、信息抽取等多个领域的研究基础。目前针对历史文本的研究相对较少,尤其缺乏历史文本中的命名实体识别相关研究。[方法/过程]为了较好地识别出历史事件名,笔者尝试建立深度学习模型BiLSTM-CRF进行命名实体识别。此外,基于这种模型识别了时间、地点、人物这三个辅助元素作为事件的补充信息,对不同实体的识别特性进行对比分析。[结果/结论]发现历史事件名实体识别F1值能达到95.02%。对于辅助实体元素,除地点实体F1值低于80%,其他实体元素均表现较好,F1值能达到80%以上,说明该模型具有良好的识别性及可移植性。[局限]数据标注量还不够充分,标注粒度还可以进一步细化。
- 王昊王雪颖王雪颖吴志祥
- 关键词:命名实体识别
- 基于汉字标注的中文历史事件名抽取研究被引量:8
- 2018年
- 【目的】探讨中文历史事件名识别和抽取的最优模型,用于历史文本的知识重组和中国历史事件本体的构建。【方法】以魏晋南北朝史书文本为原始语料,进行自动标引,运用条件随机场(CRFs)模型,以单个汉字为标注对象,探讨不同汉字角色集合、不同特征对历史事件名识别的影响,寻找最佳模型。【结果】经过实验论证,得到字素的词性倾向和姓氏特征相累加的最佳历史事件名识别模型,F1值高达98.74%,该最佳模型在两个开放场景中的应用也得到较好的识别效果。【局限】由于史书文本的语料特性,本实验的数据量不是特别充足;未在本实验环境下验证汉字角色标注相较于词角色标注的优越性。【结论】定义恰当的角色和特征集合后,CRFs模型可以有效地识别和抽取历史文本中的历史事件名。
- 唐慧慧王昊张紫玄王雪颖
- 关键词:条件随机场汉字标注命名实体识别本体学习
- 中国农产品品牌评价研究的内容解析
- 目的:通过分析中国农产品品牌评价领域的文献题名总结该领域的研究现状.方法:对该领域的文献题名进行K-means聚类,分析每簇研究的重点内容,分别使用因子分析、多维尺度分析和层次聚类分析进一步解析聚类得到的每簇文献的特点....
- 王雪颖张紫玄王昊邓三鸿
- 关键词:农产品文献计量学K-均值聚类算法
- 基于奇异值分解的专利术语层次关系解析研究被引量:6
- 2017年
- 奇异值分解是矩阵分析中常用的分解技术,在高维数据的降维、去噪方面有着广泛的应用。本文将矩阵的奇异值分解技术应用到领域专利术语的层次关系解析中,其核心思想是术语语义空间的深度转换,旨在用某种潜在特征代替文档作为属性来表示术语。具体研究包括,基于位置加权的原始术语-文档语义空间的构建方法、基于奇异值分解的术语特征抽取方法、基于术语-特征语义空间的术语层次关系解析方法。本文对论述的理论方法进行了实证研究,证实了该方法的可行性和有效性,并在此基础上实现较大规模的钢铁冶金领域专利术语层次关系解析,将解析结果纳入到本体学习理论体系中,实现该领域专利术语的知识本体化与可视化。
- 吴志祥王昊王雪颖祁磊苏新宁
- 关键词:本体学习
- 面向汉语文本的历史事件及其相关元素识别和集成研究
- 命名实体识别作为文本挖掘领域的一个研究重点,也是信息检索、句法分析、问答系统、信息抽取、机器翻译等多个领域的研究基础,对促进自然语言技术发展起到关键作用。然而,由于汉字及中文语法十分复杂,汉语文本的命名实体识别从研究深度...
- 王雪颖
- 关键词:命名实体识别CRFS
- 哈姆雷特人物形象在当代中国的接受
- 接受美学是二十世纪六十年代末出现的一种理论思潮,本文将运用这一理论解读哈姆雷特人物形象在中国的演变。从接受媒介看,中国受众不仅对哈姆雷特人物形象进行文本评论,而且尝试在戏剧舞台和电影银屏上改编哈姆雷特人物形象,表达改编者...
- 王雪颖
- 关键词:哈姆雷特
- 文献传递
- 中国农产品品牌评价研究的内容解析被引量:5
- 2017年
- 【目的】通过分析中国农产品品牌评价领域的文献题名总结该领域的研究现状。【方法】对该领域的文献题名进行K-means聚类,分析每簇研究的重点内容,分别使用因子分析、多维尺度分析和层次聚类分析进一步解析聚类得到的每簇文献的特点。【结果】文献数量总体呈现"M"型趋势,文献多采用模糊综合法,从多个评价角度集中探讨评价指标体系、评价模型、影响因素等方面。【局限】仅针对题名进行分析,未涉及关键词与摘要文本。【结论】聚类结果较好地揭示了中国该领域的研究现状,但没有反映出种类农产品、Interband品牌评估法相关内容。
- 王雪颖张紫玄王昊邓三鸿
- 关键词:K-MEANS聚类层次聚类分析多维尺度分析
- 中文专利文献中连续符号串的语义识别被引量:1
- 2018年
- 【目的】解决汉语文档中连续字符串的语义识别问题。【方法】使用钢铁冶金领域专利文献中已识别语义的部分符号串作为学习语料,利用基础特征、汉字特征、符号串特征进行测试,根据实验结果确定最佳模型。使用最佳模型,对规则未能判别语义的符号串展开测试。【结果】将测试结果与人工判别的真实角色进行比对,发现Y的P值最小为98.15%,最大为99.62%,N的P值最小为96.87%,最大为99.34%;Y的R值最小为96.56%,最大为99.04%,N的R值最小为98.73%,最大为99.67%;Y的F1值最小为97.71%,最大为99.33%;N的F1值最小为97.98%,最大为99.42%,可以看出识别效果较为理想。【局限】受学习语料规模的影响和研究时间的限制,未能将已识别角色的语料加入样本中学习。【结论】该模型在中文专利文献中连续符号串的语义判别方面具有较高的可行性、有效性和可移植性,为英文文献中符号串的语义判别提供思路。
- 王雪颖王昊张紫玄
- 关键词:中文专利语义识别