当前位置: 首页 > news >正文

广州做创客教室的厂家网站哈尔滨企业网站seo

广州做创客教室的厂家网站,哈尔滨企业网站seo,传奇网页游戏变态版,日本人爱做月光影院网站本文将对三种中文分词工具进行使用尝试,这三种工具分别为:哈工大的LTP,结巴分词以及北大的pkuseg。 1、准备 首先我们先准备好环境,即需要安装三个模块: pyltpjiebapkusegLTP的分词模型文件cws.model 在用户字典中…

本文将对三种中文分词工具进行使用尝试,这三种工具分别为:哈工大的LTP结巴分词以及北大的pkuseg

1、准备

首先我们先准备好环境,即需要安装三个模块:

  • pyltp
  • jieba
  • pkuseg
  • LTP的分词模型文件cws.model

在用户字典中添加以下5个词语:

经
少安
贺凤英
F-35战斗机
埃达尔·阿勒坎

2、测试代码

# -*- coding: utf-8 -*-
import os
import jieba
import pkuseg
from pyltp import Segmentor
lexicon = ['经', '少安', '贺凤英', 'F-35战斗机', '埃达尔·阿勒坎'] # 自定义词典# 哈工大LTP分词
def ltp_segment(sent):# 加载文件cws_model_path = os.path.join('data/cws.model') # 分词模型路径,模型名称为`cws.model`lexicon_path = os.path.join('data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)words = list(segmentor.segment(sent))segmentor.release()return words# 结巴分词
def jieba_cut(sent):for word in lexicon:jieba.add_word(word)return list(jieba.cut(sent))# pkuseg分词
def pkuseg_cut(sent):seg = pkuseg.pkuseg(user_dict=lexicon)words = seg.cut(sent)return wordssent = '尽管玉亭成家以后,他老婆贺凤英那些年把少安妈欺负上一回又一回,怕老婆的玉亭连一声也不敢吭,但少安他妈不计较他。'
#sent = '据此前报道,以色列于去年5月成为世界上第一个在实战中使用F-35战斗机的国家。'
#sent = '小船4月8日经长江前往小鸟岛。'
#sent = '1958年,埃达尔·阿勒坎出生在土耳其首都安卡拉,但他的求学生涯多在美国度过。'print('ltp:', ltp_segment(sent))
print('jieba:', jieba_cut(sent))
print('pkuseg:', pkuseg_cut(sent))

3、测试输出

3.1对于第1句话,输出结果如下:

原文: 尽管玉亭成家以后,他老婆贺凤英那些年把少安妈欺负上一回又一回,怕老婆的玉亭连一声也不敢吭,但少安他妈不计较他。

ltp: [‘尽管’, ‘玉亭’, ‘成家’, ‘以后’, ‘,’, ‘他’, ‘老婆’, ‘贺凤英’, ‘那些’, ‘年’, ‘把’, ‘少安’, ‘妈’, ‘欺负’, ‘上’, ‘一’, ‘回’, ‘又’, ‘一’, ‘回’, ‘,’, ‘怕’, ‘老婆’, ‘的’, ‘玉亭’, ‘连’, ‘一’, ‘声’, ‘也’, ‘不’, ‘敢’, ‘吭’, ‘,’, ‘但’, ‘少安’, ‘他妈’, ‘不’, ‘计较’, ‘他’, ‘。’]

jieba: [‘尽管’, ‘玉亭’, ‘成家’, ‘以后’, ‘,’, ‘他’, ‘老婆’, ‘贺凤英’, ‘那些’, ‘年’, ‘把’, ‘少安’, ‘妈’, ‘欺负’, ‘上’, ‘一回’, ‘又’, ‘一回’, ‘,’, ‘怕老婆’, ‘的’, ‘玉亭’, ‘连’, ‘一声’, ‘也’, ‘不敢’, ‘吭’, ‘,’, ‘但少安’, ‘他妈’, ‘不’, ‘计较’, ‘他’, ‘。’]

pkuseg: [‘尽管’, ‘玉亭’, ‘成家’, ‘以后’, ‘,’, ‘他’, ‘老婆’, ‘贺凤英’, ‘那些’, ‘年’, ‘把’, ‘少安’, ‘妈’, ‘欺负’, ‘上’, ‘一’, ‘回’, ‘又’, ‘一’, ‘回’, ‘,’, ‘怕’, ‘老婆’, ‘的’, ‘玉亭’, ‘连’, ‘一’, ‘声’, ‘也’, ‘不’, ‘敢’, ‘吭’, ‘,’, ‘但’, ‘少安’, ‘他妈’, ‘不’, ‘计较’, ‘他’, ‘。’]

3.2对于第2句话,输出结果如下:

原文: 据此前报道,以色列于去年5月成为世界上第一个在实战中使用F-35战斗机的国家。

ltp: [‘据’, ‘此前’, ‘报道’, ‘,’, ‘以色列’, ‘于’, ‘去年’, ‘5月’, ‘成为’, ‘世界’, ‘上’, ‘第一’, ‘个’, ‘在’, ‘实战’, ‘中’, ‘使用’, ‘F-35’, ‘战斗机’, ‘的’, ‘国家’, ‘。’]

jieba: [‘据此’, ‘前’, ‘报道’, ‘,’, ‘以色列’, ‘于’, ‘去年’, ‘5’, ‘月’, ‘成为’, ‘世界’, ‘上’, ‘第一个’, ‘在’, ‘实战’, ‘中’, ‘使用’, ‘F’, ‘-’, ‘35’, ‘战斗机’, ‘的’, ‘国家’, ‘。’]

pkuseg: [‘据’, ‘此前’, ‘报道’, ‘,’, ‘以色列’, ‘于’, ‘去年’, ‘5月’, ‘成为’, ‘世界’, ‘上’, ‘第一’, ‘个’, ‘在’, ‘实战’, ‘中’, ‘使用’, ‘F-35战斗机’, ‘的’, ‘国家’, ‘。’]

3.3对于第3句话,输出结果如下:

原文: 小船4月8日经长江前往小鸟岛。

ltp: [‘小船’, ‘4月’, ‘8日’, ‘经长江’, ‘前往’, ‘小鸟岛’, ‘。’]

jieba: [‘小船’, ‘4’, ‘月’, ‘8’, ‘日经’, ‘长江’, ‘前往’, ‘小’, ‘鸟岛’, ‘。’]

pkuseg: [‘小船’, ‘4月’, ‘8日’, ‘经’, ‘长江’, ‘前往’, ‘小鸟’, ‘岛’, ‘。’]

3.4对于第4句话,输出结果如下:

原文: 1958年,埃达尔·阿勒坎出生在土耳其首都安卡拉,但他的求学生涯多在美国度过。

ltp: [‘1958年’, ‘,’, ‘埃达尔·阿勒坎’, ‘出生’, ‘在’, ‘土耳其’, ‘首都’, ‘安卡拉’, ‘,’, ‘但’, ‘他’, ‘的’, ‘求学’, ‘生涯’, ‘多’, ‘在’, ‘美国’, ‘度过’, ‘。’]

jieba: [‘1958’, ‘年’, ‘,’, ‘埃’, ‘达尔’, ‘·’, ‘阿勒’, ‘坎’, ‘出生’, ‘在’, ‘土耳其’, ‘首都’, ‘安卡拉’, ‘,’, ‘但’, ‘他’, ‘的’, ‘求学’, ‘生涯’, ‘多’, ‘在’, ‘美国’, ‘度过’, ‘。’]

pkuseg: [‘1958年’, ‘,’, ‘埃达尔·阿勒坎’, ‘出生’, ‘在’, ‘土耳其’, ‘首都’, ‘安卡拉’, ‘,’, ‘但’, ‘他’, ‘的’, ‘求学’, ‘生涯’, ‘多’, ‘在’, ‘美国’, ‘度过’, ‘。’]

4、测试总结

  • 用户词典方面:LTP和pkuseg的效果都很好,jieba的表现不尽如人意,这主要是因为自定义的字典的词语里面含有标点符号,关于该问题的解决办法,可以参考网址:https://blog.csdn.net/weixin_42471956/article/details/80795534

  • 从第二句话的效果来看,pkuseg的分词效果应该是最好的,‘经’应该作为单个的词语切分出来,而LTP和jieba即使加了自定义词典,也没有效果,同理,‘F-35战斗机’也是类似的情形。

  • 总的来说,三者的分词效果都很优秀,差距不是很大,但在自定义词典这块,无疑pkuseg的效果更加稳定些。

  • 有关pkuseg的介绍与使用,可以参考网址:https://github.com/lancopku/PKUSeg-python

http://www.mnyf.cn/news/37612.html

相关文章:

  • 山东建大建设有限公司网站网站流量分析报告
  • 乌鲁木齐建设银行招聘网站seo快速优化文章排名
  • 安徽做网站哪家好aso优化注意什么
  • 北京网站建设公司分形中文域名注册官网入口
  • 婚纱手机网站制作关键词首页排名优化价格
  • 威海电子商务网站建设html友情链接
  • 响应式网站素材网络推广的方式和途径有哪些
  • 北京设计装修公司排名百度seo排名优化公司推荐
  • 丝绸之路网站建设意义seo外链招聘
  • 唐山专业网站建设公司关键词首页排名代做
  • 南京电商网站建设网络营销策划的内容
  • 莱芜做网站公司如何制作自己的网站教程
  • 企业网站制作公司推荐宁波免费seo在线优化
  • 前几年做啥网站致富百度网址大全官方下载
  • 微网站建设报价方案模板下载网站seo置顶
  • 网站诊断从哪里开始东莞网站推广宣传
  • 石家庄网站建设时光seo网站关键词优化工具
  • 团队如何分工做网站优化公司怎么优化网站的
  • 重庆做网站建设哪家好seo基础培训机构
  • 大连做网站公司排行榜无锡网站服务公司
  • 济南专业做网站公司什么软件可以发帖子做推广
  • cms网站怎么做seo网站优化方
  • 郴州网站制作公司招聘如何刷app推广次数
  • 都有什么类别的网站如何快速推广app
  • 做一下网站收购废钢合肥seo报价
  • 响应式网站模仿学seo哪个培训好
  • 东莞做网站it s软文推广是什么
  • 只做鞋子的网站自己的网站怎么做seo
  • 中牟网站建设网络营销ppt
  • 做淘宝网站最有效的网络推广方式