IE盒子

搜索
查看: 105|回复: 0

如何下载自然语言处理工具箱NLTK的nltk_data数据包

[复制链接]

1

主题

4

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-3-5 08:02:52 | 显示全部楼层 |阅读模式
NLTK是自然语言处理中常用的工具箱,其全称是Natural Language Toolkit,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码[1]。
这么强大的工具包自然要安装一下,但是如果采用官网提供的方法很难下载完整的nltk_data. 本文提供一种快捷下载nltk的方法。
一、前期准备

安装完Python后,利用pip install nltk来安装nltk包,如果安装速度慢可借助镜像下载。
pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple


安装nltk包

二、安装nltk_data

如果nltk安装成功后,会有以下提示:



NLTK安装成功

然后,我们在cmd下输入【python】进入到python界面,然后【import python】,通过【nltk.download()】来下载数据包,但通常的情况下,这种方法太慢,而且大概率是不会成功的。所以这里我们只要复制【Download Directory】里的目录信息,我们下载完nltk_data,就要放在这个目录里。



获取nltk_data目录

接着,我们去github上下载最新的nltk_data,地址如下:



Github下载nltk_data

点击【Download ZIP】可以把nltk_data包下载到本地,大小约700M。解压完以后,把packages这个目录改为nltk_data,然后把nltk_data这个文件夹复制到之前我们得到的目录地址:
C:\users\mi\appdata\roaming如果无法找开github,可以点以下镜像链接进入下载[2]:
为了方便大家下载,我已经把这个数据包上传百度网盘,大家也可以进入以下链接进入下载:
下面,这样我们再次进入到nltk.download()命令下的nltk downloader界面,点击右下角的refresh按钮进行刷新。如下图:



刷新nltk_data

当所有的内容显示为绿色,【status】提示installed时,我们已经把nltk_data的数据包安装成功了。也可以进入python测试是不是可以读取布朗语料库,如果提示可以读取则证明安装成功,如下图所示。



测试nltk_data是否安装成功

三、学后反思

1.NLTK这个智能工具箱非常强大,内置了很多分词、标注、检索、可视化等工具[3],是语料库研究中的利器。更多的语料库方面的应用大家可以参考管新潮老师2018年出的《语料库与Python应用》这本书,讲的很详细。
2.除了NLTK,这几年spaCy的应用也非常广泛,功能与nltk类似,但是功能更强,更新也快,语言处理上也具有很大的优势。上外博士生叶磊同学就采用了spaCy来处理文本分词,并把这个模型集成到了wordless上面。
参考


  • ^NLTK简介 https://zhuanlan.zhihu.com/p/58674376
  • ^nltk_data下载地址 https://blog.csdn.net/henanlion/article/details/122765196
  • ^nltk应用举隅 https://blog.csdn.net/u010985535/article/details/104997340
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表