苏祺
- 作品数:29 被引量:63H指数:5
- 供职机构:北京大学外国语学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字哲学宗教更多>>
- 基于语料库的我国职业性别无意识偏见共时历时研究被引量:3
- 2021年
- 性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。
- 朱述承苏祺刘鹏远
- 关键词:语料库性别
- 词性标注对信息检索系统性能的影响
- 在信息检索中引入NLP技术是信息检索发展的主要趋势,本文将NLP中较为成熟的词性标注技术加入信息检索,采用大规模TREC数据集,试图发现词性标注对信息检索系统性能的影响.笔者在SMART检索系统上使用不同标注集、不同索引...
- 苏祺昝红英胡景贺项锟
- 关键词:信息检索向量空间模型词性标注SMART
- 文献传递
- 《论语》在中国历代儒家典籍中的文本复用与互文分析
- 2024年
- 古代典籍常有袭用前贤文字的现象,或逐字逐句直引原文,或以相近之意异文复用。踵武前贤的文本复用行为使得先贤的思想观念在后世传播演化、历久弥新。然而许多文献在复用前贤文字时并未直接标明因袭的出处,因此人文学者以往是通过逐句对读的方法来研究文本之间的复用关系。本文参考《中国学术名著提要·哲学卷》的目录,选取了上始先秦下迄民国的136本儒学经典书目作为《论语》复用检索的参考语料集合,采用近似最长公共子串匹配方法自动识别和提取后世文献中与《论语》表述相近、取意相同的复用文本,并从篇目、章节和短语三个由粗到精的文本粒度对平行文本进行计量统计。本文结合既有的史学研究问题与观点,观察《论语》在中国儒家经典中被广泛复用的思想主题,及不同类型文献对复用内容的侧重;观察《论语》20篇文本及其思想主题在不同历史阶段的复用频次变化,进而探析不同社会背景下思想受关注程度的演变,以及不同历史时期《论语》在中国哲学史中的地位变迁。
- 杨浩李佳纯王军苏祺
- 关键词:互文性论语儒家典籍
- 义项矩阵模型SMM简介
- 本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为'义项矩阵模型'SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示成为一个term×sense矩阵...
- 孙斌吕学强苏祺
- 关键词:信息检索数据分析文本信息
- 文献传递
- 基于链接聚类的Shark-Search算法
- 根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
- 苏祺项锟孙斌
- 关键词:链接聚类
- 文献传递
- 搜索引擎用短语词典建设被引量:9
- 2005年
- 百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
- 吕学强苏祺孙斌俞士汶
- 关键词:搜索引擎语言资源短语词典中文分词
- 基于预训练语言模型的繁体古文自动句读研究被引量:1
- 2023年
- 未经整理的古代典籍不含任何标点,不符合当代人的阅读习惯,古籍加断句标点之后有助于阅读、研究和出版。该文提出了一种基于预训练语言模型的繁体古文自动句读框架。该文整理了约10亿字的繁体古文语料,对预训练语言模型进行增量训练,在此基础上实现古文自动句读和标点。实验表明,经过大规模繁体古文语料增量训练后的语言模型具备更好的古文语义表示能力,能够有助提升繁体古文自动句读和自动标点的效果。融合增量训练模型之后,古文断句F1值达到95.03%,古文标点F1值达到了80.18%,分别比使用未增量训练的语言模型提升1.83%和2.21%。为解决现有篇章级句读方案效率低的问题,该文改进了前人的串行滑动窗口方案,在一定程度上提高了句读效率,并提出一种新的并行滑动窗口方案,能够高效准确地进行长文本自动句读。
- 唐雪梅苏祺王军王军杨浩
- 古籍数字化关键技术评述被引量:14
- 2021年
- 中国历史文化典籍是中华民族的宝贵财富.在数字环境下,实现古籍的数字化整理与利用,能够为数字人文研究、历史学研究及其他人文研究提供基础性资源,也是推动中华文明创造性转化与创新性发展的重要依托.古籍的数字化整理包括纸本资源的电子化,以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层知识提取.本文对现有古籍数字化整理的技术方法与平台进行梳理与评述,分析古籍数字化整理的挑战,探讨古籍数字化整理任务的未来发展方向.
- 苏祺胡韧奋诸雨辰严承希王军
- 关键词:古籍整理古籍数字化自然语言处理
- 中文文本聚类的特征单元比较
- 本文对字、词和字串等文本特征在中文文本聚类中的效果进行了比较实验.实验使用K-MEANS聚类方法,检验了字特征、字串特征、词特征以及它们的组合方式的聚类效果.
- 王洪俊俞士汶苏祺施水才肖诗斌
- 关键词:中文文本聚类
- 文献传递
- 面向观点挖掘的产品评价特征词识别
- 在观点挖掘的研究中,目前的研究方法大部分集中在识别不同语言单元中所表述观点评价的整体褒贬性。然而在很多情况下,仅简单地识别评价语料对所评价对象(如特定类产品)的褒贬并不能完全解决问题。有必要区分评论语料中针对所评价对象不...
- 苏祺孙斌
- 文献传递