设为首页
收藏本站
切换到窄版
登录
立即注册
找回密码
搜索
搜索
本版
帖子
用户
快捷导航
论坛
BBS
C语言
C++
NET
JAVA
PHP
易语言
数据库
IE盒子
»
论坛
›
IE盒子
›
NET
›
如何下载自然语言处理工具箱NLTK的nltk_data数据包 ...
返回列表
发帖
查看:
105
|
回复:
0
如何下载自然语言处理工具箱NLTK的nltk_data数据包
[复制链接]
怪怪怪蜀黍
怪怪怪蜀黍
当前离线
积分
5
1
主题
4
帖子
5
积分
新手上路
新手上路, 积分 5, 距离下一级还需 45 积分
新手上路, 积分 5, 距离下一级还需 45 积分
积分
5
发消息
发表于 2023-3-5 08:02:52
|
显示全部楼层
|
阅读模式
NLTK是自然语言处理中常用的工具箱,其全称是Natural Language Toolkit,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码[1]。
这么强大的工具包自然要安装一下,但是如果采用官网提供的方法很难下载完整的nltk_data. 本文提供一种快捷下载nltk的方法。
一、前期准备
安装完Python后,利用pip install nltk来安装nltk包,如果安装速度慢可借助镜像下载。
pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple
安装nltk包
二、安装nltk_data
如果nltk安装成功后,会有以下提示:
NLTK安装成功
然后,我们在cmd下输入【python】进入到python界面,然后【import python】,通过【nltk.download()】来下载数据包,但通常的情况下,这种方法太慢,而且大概率是不会成功的。所以这里我们只要复制【Download Directory】里的目录信息,我们下载完nltk_data,就要放在这个目录里。
获取nltk_data目录
接着,我们去
github上下载最新的nltk_data
,地址如下:
Github下载nltk_data
点击【Download ZIP】可以把nltk_data包下载到本地,大小约700M。解压完以后,把packages这个目录改为nltk_data,然后把nltk_data这个文件夹复制到之前我们得到的目录地址:
C:\users\mi\appdata\roaming如果无法找开github,可以点以下镜像链接进入下载[2]:
为了方便大家下载,我已经把这个数据包上传百度网盘,大家也可以进入以下链接进入下载:
下面,这样我们再次进入到nltk.download()命令下的nltk downloader界面,点击右下角的refresh按钮进行刷新。如下图:
刷新nltk_data
当所有的内容显示为绿色,【status】提示installed时,我们已经把nltk_data的数据包安装成功了。也可以进入python测试是不是可以读取布朗语料库,如果提示可以读取则证明安装成功,如下图所示。
测试nltk_data是否安装成功
三、学后反思
1.NLTK这个智能工具箱非常强大,内置了很多分词、标注、检索、可视化等工具[3],是语料库研究中的利器。更多的语料库方面的应用大家可以参考管新潮老师2018年出的《语料库与Python应用》这本书,讲的很详细。
2.除了NLTK,这几年spaCy的应用也非常广泛,功能与nltk类似,但是功能更强,更新也快,语言处理上也具有很大的优势。上外博士生叶磊同学就采用了spaCy来处理文本分词,并把这个模型集成到了wordless上面。
参考
^NLTK简介 https://zhuanlan.zhihu.com/p/58674376
^nltk_data下载地址 https://blog.csdn.net/henanlion/article/details/122765196
^nltk应用举隅 https://blog.csdn.net/u010985535/article/details/104997340
回复
使用道具
举报
返回列表
发帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
数据库
快速回复
返回顶部
返回列表