常用于分类变量差值处理的模型是聚类模型吗-广富强博客

常用于分类变量插值处理的模型是？

1、反距离加权插值法。首先是由气象学家和地质工作者提出的。计算的权值随结点到观测点距离的增加而下降。

配给的权重是一个分数，所有权重总和等于1.0。该法综合了泰森多边形的邻近点法和多元回归法的长处，通过权重调整空间插值结构；缺点是在格网区域内要产生围绕观测点的“牛眼”，给电法与磁法数据解释带来不便，因此，实际应用较少。

2、最小曲率法。广泛应用于地球科学。该法的特点是在尽可能严格地尊重数据的同时，生成尽可能圆滑的曲面。使用最小曲率法时要涉及到两个参数：最大残差参数和最大循环次数参数，而且最小曲率法要求至少有四个点。实际应用中该法用于平滑估值，绘出的等值线主要用于定性研究。

3、自然邻点插值法。其基本原理是对于一组泰森多边形，当在数据集中加入一个新的数据点(目标) 时，就会修改这些泰森多边形，而使用邻点的权重平均值将决定待插点的权重，待插点的权重和目标泰森多边形的边长成比例。

同时，自然邻点插值法在数据点凸起的位置并不外推等值线(如泰森多边形的轮廓线)。自然邻点插值型函数满足在插值节点等于1，单位分解性和线性完备性等插值型函数的基本性质。

4、径向基函数插值法。它是多个数据插值方法的组合，其基函数是由单个变量的函数构成的。所有径向基函数插值法都是准确的插值器，它们都能尽量适应的数据；若要生成一个更圆滑的曲面，对所有这些方法都可以引入一个圆滑系数。

基函数中的复二次函数方法在水文测量、大地测量、地质及采矿、地球物理等领域都得到了广泛应用，效果良好。在数据点数量不太大的情况下，计算也不太复杂，适合于电法数据生成等值线。

5、三角网/线性插值法。使用最佳的Delaunay三角形，连接数据点间的连线形成三角形。每一个三角形定义了一个覆盖该三角形内网格节点的面，三角形的倾斜和标高由定义这个三角形的三个原始数据点确定。

给定三角形内的全部节点都要受到该三角形的表面的限制。该法将在网格范围内均匀分配数据，地图上稀疏的区域将会形成截然不同的三角面。方法法适合于地层模型和断层的表示，也适合于大比例尺的磁法数据处理。

将相似的样本划分为一类，分析各类间的差异。

样本的属性有定性和定量两种：

对于数据集，给定一个分类数K，划分法将数据集划分为K个组，每一个分组就代表一个分类。

大部分划分方法是基于距离的，以K-means算法为例，其大致原理是：

1.首先确定分类的数量K

2. 从数据集中随机的选择K个样本点作为初始类中心（质心）

3. 计算数据集中每一个样本点与初始类中心的距离，离那一个类中心近就划分给那个类中

4.重新计算K个类的类中心（质心），新的质心是该组所有样本的各属性的平均值，即means

5.如果新的类中与旧的类中心的距离小于设定的阈值，可以认为我们进行的聚类达到预期的结果，算法终止。

6.如果新的类中心和旧中心的距离很大，继续迭代3~5步骤。

Kmodes算法原理与Kmeans原理一样，计算的距离的方法不同。Kmodes计算的是字符间的距离。

距离的计算：假设有两个点：A，B，A=（a1,a2,a3,...an）,B=(b1,b2,b3,...bn)

欧式距离： (i=1,2,3,4..n)

汉明距离（也叫海明威距离）：通过比较两个向量每一位是否相同，若不同则汉明距离加1，这样得到汉明距离，向量相似度越高，得到的汉明距离越小。

余弦距离： ?两个向量间的余弦相似度。夹角越小，余弦值越接近1.

K-prototype算法提出了混合属性簇的原型，其原型就是数值属性原型用属性中所有属性取值的均值，分类属性原型是分类属性中取值频率最高的属性。合起来就是原型。

K-prototype聚类的准则就是使用一个合适的损失函数去度量数值型和分类型变量对原型的距离。假设X={X1,X2,....X3}为n个样本集合，Xi={X1,X2,...Xm}为样本i的m个属性。k为聚类个数。而这个损失函数可以定义为：

其中，它表示类别 l 的一个原型，也就是类别 l 的中心（质心），为切分矩阵Y的元素，其实就是在类别l中有么有这个样本，有则为1，没有为0。d是相似性度量，经常定义为平方欧式距离。为把X分为类别l的总损失。

当时，达到最小化，

其中为类别l中的样本个数。上面是对于数值型变量，当X中含有分类变量时，可以把相似度改为：

r,c分别为数值属性和分类属性的个数，是类别l中分类属性的权重。

将d(Xi,Ql)带入El中：这样就代表类别l的样本中所有数值属性的总损失，代表所有分类属性的总损失。

免责声明：本平台仅供信息发布交流之途，请谨慎判断信息真伪。如遇虚假诈骗信息，请立即举报

常用于分类变量差值处理的模型是聚类模型吗