必备知识概念
1 | 数据挖掘,最简单的就是统计应用,进一步基于用户的浏览点击,收藏推断用户的年龄,性别等,更深层次的如预测 |
数据挖掘的基本技术
1 | 1.统计学====>即指将数据集合假设一个分布或者概率模型,然后按照模型采用相同的方法来进行挖掘 |
1 | 数据规范化:将数据按照指定比例进行缩放,映射到指定区域. 常用方法:min-max规范化,z-score规范化,按小数定标规范化 |
数据仓库
1 | 数据仓库:是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点 |
聚类
1 | 聚类是一个把数据对象集划分成多个组或簇的过程,是的簇内的对象具有很高的相似性,但与其他簇的对象很不相似 |
k-均值
1 | 算法:k-均值.用于划分的k-均值算法,其中每个簇的中心都用簇中所有对象的均值来表示 |
k-中心点
1 | k-均值算法对离群点敏感,因为存在对象远离大多数数据,因此分配到一个簇时候可能严重影响簇的均值。而k-中心点聚类的基本思想和K-means的思想相同,实质上是对K-means算法的优化和改进。 |
5种主要聚类算法
1 | 1.k-means聚类(优化:k-medians)原理见上面 ===>优势:速度非常快,只计算了点和群中心的距离 缺点:离群值点较敏感,同时还需要确定划分的组数/类,也会影响最终的结果. |
文本挖掘
1 | 文本数据挖掘跟自然语言处理不是一回事,但是有很多的相通之处 |
谱聚类
1 | 谱:方阵作为线性算子,它的所有特征值得全体称为方阵的谱.方阵的谱半径为最大的特征值.矩阵A的谱半径为矩阵A转置A的最大特征值 |
数学概念
1 | 1.中心趋势度量:均值、中位数、众数 |