季铎
- 作品数:53 被引量:126H指数:6
- 供职机构:中国刑事警察学院更多>>
- 发文基金:国家高技术研究发展计划教育部科学技术研究重点项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字政治法律文化科学更多>>
- 基于动态词对齐的交互式机器翻译被引量:5
- 2017年
- 在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。
- 马斌蔡东风季铎叶娜吴闯
- 关键词:词对齐
- 统计与语义相融合的词语相似度计算
- 词语相似度计算是自然语言处理领域的基础和研究难点。本文利用知网的相关概念场,将词语的相关性引入到基于平均互信息的词语相似度计算中,并提出了统计和语义相结合的词语相似度计算方法,采用了国家公务员考试“词语替换”题型进行测试...
- 郭丽蔡东风季铎白宇
- 关键词:汉字处理词语相似度数理语言学
- 文献传递
- 基于奇异值分解的关系相似度计算方法被引量:3
- 2009年
- 关系相似度计算在信息检索等领域有重要的应用。目前,关系相似度主要通过向量空间模型计算,但数据稀疏严重影响计算效果。为此提出以上下文模板表示特征,并通过对特征矩阵的奇异值分解降维消除噪声,再通过向量余弦夹角计算关系相似度。实验表明,该算法比传统的向量空间模型算法在分类准确率方面有明显提高。
- 郭丽刘磊季铎蔡东风
- 关键词:向量空间模型奇异值分解
- 基于TextRank的多文档关键词抽取技术
- 本文提出一种基于TextRaak的多文档关键词抽取方法,该方法利用ATFPDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键诃之问的语义相似关系建立TextRank模型,递归计算至收敛,最后生...
- 杨洁季铎蔡东风代翠
- 关键词:多文档语义相似度
- 文献传递
- 基于TeztRank的多文档关键词抽取技术
- 本文提出一种基于TextRank的多文档关键词抽取方法,该方法利用ATF*PDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键词之间的语义相似关系建立TextRank模型,递归计算至收敛,最后...
- 杨洁季铎蔡东风代翠
- 关键词:多文档语义相似度关键词抽取词语权重
- 文献传递
- 基于联合权重的多文档关键词抽取技术
- 本文对内容相近的多个文档抽取关键词。考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,本文提出一种计算词语权重的方法ATF*PDF(Average Term Frequency*Proportional Docum...
- 杨洁季铎蔡东风白宇
- 关键词:多文档语义相似度
- 文献传递
- 基于双向融合的日语外来语翻译技术的研究
- 日英翻译需要处理日语片假名的英译还原问题。本文利用了基于短语的统计翻译方法对片假名进行日到英、英到日的双向翻译,在对翻译结果进行分析的基础上总结了日英互译过程中的各自特点,提出了一种基于双向融合的片假名翻译方法,该方法优...
- 高永磊张桂平季铎国宪宇蔡东风
- 关键词:片假名
- 文献传递
- 基于条件随机场的冠词选择研究被引量:1
- 2008年
- 冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。
- 宁伟蔡东风张桂平季铎苗雪雷
- 关键词:人工智能机器翻译条件随机场互信息
- 基于子空间优化的潜在语义标引技术研究被引量:1
- 2013年
- 潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空间模型,同时提出了基于文档长度和特征DF分布状态的数据分割策略,该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略,不但保证了正确率,同时极大地缩短了算法的运行时间。最后,采用增广空间模型,将不同子空间进行融合,并获得较好的性能。在分类实验中分类正确率已达85.92%。
- 季铎常利伟蔡东风
- 基于Bi-LSTM的涉恐类案件法律文书的命名实体识别研究被引量:1
- 2023年
- 此文研究涉恐类刑事案件法律文本的中文命名实体识别任务,对涉恐类案件的实体识别对后续的公安对于涉恐类刑事案件信息提取、案情辅助研判、构建公安领域犯罪侦查知识图谱等一系列应用具有重要意义。此文提出了一种基于深度学习的模型来自动识别涉恐刑事案件法律文书中的实体。此文使用从互联网获取的涉恐类刑事案件的裁判文书作为数据集对该模型进行训练,验证,测试。在文中还加入了对比实验,将该模型的实验结果与CRF模型的实验结果进行对比。实验表明,BiLSTM-CRF模型在数据集上能够取得最优的结果,准确率为0.9541,召回率为0.9550,F1值为0.9543。实验结果证明BiLSTM-CRF模型在涉恐类案件法律文书实体识别上的可行性。
- 庄云行季铎马尧敬少杰
- 关键词:条件随机场