Nltk是python下处理语言的主要工具包,可以实现去除停用词、词性标注以及分词和分句等。
安装nltk,写python一般使用的是集成环境EPD,其中有包管理,可以在线进行安装。如果不是集成环境,可以通过pip install nltk安装。
》pip install nltk #安装nltk
》nltk.download() #弹出一个选择框,可以按照自己需要的语义或者是功能进行安装
一般要实现分词,分句,以及词性标注和去除停用词的功能时,需要安装stopwords,punkt以及
当出现LookupError时一般就是由于缺少相关模块所导致的
则是需要安装punkt,这个模块主要负责的是分词功能。同stopwords一样有两种方式安装。