1 | 语料库认知: |
1 | from nltk.book import * |
1 | 1.nltk.corpus 语料库和词典的标准化接口(获取和处理语料库) |
nltk自带的语料库(corpus)
1 | gutenberg 古典小说语料库 |
NLTK词频统计
1 | freq = nltk.FreqDist(数据) |
NLTK去除停用词(stopwords)
1 | 在自然语言处理中,无用词(数据)称为停用词 |
nltk的分词(tokensize)
1 | from nltk.tokenize import sent_tokenize |
nltk词干提取==可能创造不存在的词汇
1 | ***************************1******************************** |
nltk词形还原 == 解决词干提取会出现不存在词汇的问题
1 | from nltk.stem import WordNetLemmatizer |
nltk词性标注(pos tag)
1 | import nltk |
NLTK中的wordnet
1 | #获取给定词的定义和例句 |