TF-IDF算法:代码及原理
https://blog.csdn.net/asialee_bird/article/details/81486700
stop_words 停用词
1 | 概念:搜索的时候会自动忽略这些词 |
自然语言处理
1 | 概念:是研究人与人交际以及人与计算机交际中的语言问题的一门学科,涉及语言学\计算机科学\数学\自动化等不同学科. |
1 | 分词:单词组成句子,句子之间由空格隔开 |
NLP训练营
1 | NLP = NLU + NLG natural language processing |
NLP基础理解
1 | NLP的2个核心任务: |
1、中文分词
规则分词
1 | 正向最大匹配 |
统计分词
1 | 1.建立语言统计模型:根据上下文的相关特性建立数学模型,核心是判断一个句子在文本中出现的概率 |
2、词性标注和命名实体识别
1 | 词性标注:标注动词,名词等 |
3、关键词提取
1 | 常用方法:IF-IDF,textrank算法,主题模型 |
3.1TF-IDF算法—>统计算法—>词频–逆文档频次算法
1 | TF算法:统计一个词在文档中的频次 |
3.2Text_Rank
1 | 优点:脱离语料库只对单文档分析即可提取文档关键词 |