您的位置: 专家智库 > >

刘鹏

作品数:15 被引量:0H指数:0
供职机构:北京锐安科技有限公司更多>>
相关领域:语言文字自动化与计算机技术更多>>

文献类型

  • 15篇中文专利

领域

  • 1篇自动化与计算...
  • 1篇语言文字

主题

  • 9篇分词
  • 6篇文本
  • 6篇词汇
  • 4篇字符
  • 3篇中文
  • 3篇相似度
  • 2篇短句
  • 2篇预设
  • 2篇时间维度
  • 2篇特征词
  • 2篇中文分词
  • 2篇中文分词方法
  • 2篇中文字
  • 2篇中文字符
  • 2篇字符串
  • 2篇字符串相似度
  • 2篇字符集
  • 2篇综合信息
  • 2篇文本分类
  • 2篇文本分类模型

机构

  • 15篇北京锐安科技...

作者

  • 15篇刘鹏
  • 4篇李强
  • 2篇赵杰
  • 2篇顾俊
  • 1篇刘严
  • 1篇张建华

年份

  • 3篇2019
  • 1篇2018
  • 4篇2017
  • 6篇2016
  • 1篇2015
15 条 记 录,以下是 1-10
排序方式:
种子关键字字典建立方法和装置及关键词提取方法和装置
本发明实施例提供一种领域内的种子关键字字典的建立方法和装置及关键词的提取方法和装置。该建立方法包括:获取设定领域的实验文本集;统计实验文本集包含的汉字的出现频次;根据所述实验文本集包含的汉字的出现频次,以及预先配置的通用...
李强刘鹏
文献传递
一种中文分词方法及装置
本发明实施例公开了一种中文分词方法及装置。该方法包括:将文本集切分为多个短句,并为多个短句编号;对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号...
韦强申刘鹏
文献传递
一种文本分类模型的确定方法
本发明公开了一种文本分类模型的确定方法,包括:获取包含多个文本的样本数据,并对所述样本数据进行预处理;对所述样本数据中各个词进行时间密度的分数计算,得到所述样本数据中各个词的时间密度的分数;所述时间密度的分数表征包含对应...
刘鹏
文献传递
新词汇的发现方法及装置
本发明公开了一种新词汇的发现方法及装置。该方法包括:获取文本文档;将所述文本文档分割成片段;以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元词及扩展得到的词语以词典为参考进行过滤,得到候选词汇;计算所述候选...
顾俊刘鹏
文献传递
中文姓名的识别方法和装置
本发明实施例提供一种中文姓名的识别方法和装置。该方法包括:获取中文文本;对所述中文文本进行预处理和分词,得到预处理后的中文文本所包含的分句,以及所包含分句的分词结果;对于各分句,利用姓用字表,确定该分句的分词结果中的姓用...
敬星刘鹏
文献传递
处理文章的方法和装置
本发明实施例公开了一种处理文章的方法和装置。所述处理文章的方法包括:接收待处理的文章;根据关键词库提取所述待处理的文章中的行业关键词;基于所述行业关键词,利用被行业相关文章样本库训练后的行业相关度判别模型对所述待处理的文...
刘严刘鹏
文献传递
一种获取热点事件的方法及装置
本发明实施例公开了一种获取热点事件的方法及装置。该方法包括:对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;获取每一个文本中的关键句;提取所述关键句中的关键短语;根据预设算法计算所述关键短语中的相似度;将相...
刘鹏赵杰韦强申李强
文献传递
一种中文分词方法及装置
本发明实施例公开了一种中文分词方法及装置。该方法包括:将文本集切分为多个短句,并为多个短句编号;对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号...
韦强申刘鹏
重复文本的检测方法及装置
本发明实施例公开了一种重复文本的检测方法及装置。所述方法包括:获取待检测文本;将所述待检测文本区分为短文本及长文本;对所述短文本采用基于文本关联的重复检测;对所述长文本采用基于局部敏感哈希算法的重复检测。本发明实施例提供...
刘鹏赵杰韦强申李强
文献传递
一种计算字符串间相似度的方法及装置
本发明实施例公开了一种计算字符串间相似度的方法及装置。该方法包括:获取至少两个字符串的核心词汇的权重;获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;根据预设常用词汇的...
韦强申刘鹏
文献传递
共2页<12>
聚类工具0