1.简介
1.1 LTP
语言技术平台 (Language Technology Platform)中文语言处理系统 ,哈工大社会计算与信息检索研究中心独立研发,(官网)。2011年,LTP正式开源。
LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看,LTP为用户提供了下列组件:
-针对单一自然语言处理任务,生成统计机器学习模型的工具
-针对单一自然语言处理任务,调用模型进行分析的编程接口
-使用流水线方式将各个分析工具结合起来,形成一套统一的中文自然语言处理系统
-系统可调用的,用于中文语言处理的模型文件
-针对单一自然语言处理任务,基于云端的编程接口
如果你的公司需要一套高性能的中文语言分析工具以处理海量的文本,或者你的在研究工作建立在一系列底层中文自然语言处理任务之上,或者你想将自己的科研成果与前沿先进工作进行对比,LTP都可能是你的选择。
1.2 pyltp
是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
另外,如果想在java上使用,LTP也提供了相应的封装: ltp4j - Language Technology Platform for Java
2.环境安装
本人采用【python:3.7 LTP:3.3.1 ltp_data(模型):3.4.0 pyltp:0.1.9.1】
依赖支持情况:
2.1 python和PyCharm安装
建议使用python 3.7版本,安装参考其他博客。
PyCharm采用最新版社区版
2.2 LTP和ltp_data下载
将下载好的压缩包解压,可存放在任意位置。
2.3 安装pyltp
采用pip方式,安装版本为0.1.9.1
pip install pyltp==0.1.9.1
到这一步,基本的环境也就搭建完成,在安装pyltp的时候,可能需要先安装其他软件,按照cmd提示操作即可。可能还会出现一些其他问题,如“cl.exe”字样,安装vs2008即可解决(微软官网下载:VS2008ExpressENUX1397868.iso)。
下一篇:pyltp的简单使用