威尼斯人app下载
个人资料
课工场北美大数据
课工场北美大数据
微博
  • 博客等级:
  • 博客积分:0
  • 博客访问:13,898
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
威尼斯人app下载
正文 字体大小:

武汉课工场云计算培训:带你轻松进阶机器学习K最近邻算法

(2020-06-09 16:59:54)
标签:

武汉课工场

it电脑培训

武汉云计算培训

云计算培训

武汉课工场云计算培训:带你轻松进阶机器学习K最近邻算法

 

基本原理

 

    K最近邻算法的基本原理是,对给定的训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K个实例,依据“少数服从多数”的原则,根据这K个实例中占多数的类,就把该实例分为这个类。

 

    换言之,它实际上是利用训练数据集对特征空间进行划分,采用测量不同特征值之间的距离方法进行分类。如下图所示,给定了红色和蓝色的训练样本,绿色为测试样本。然后计算绿色点到其他点的距离,同时选取离绿点最近的k个点。如果选定k=1时,k个点全是蓝色,那预测结果就是绿色为类别1(蓝色);k=3时,k个点中两个红色一个蓝色,这里采取“少数服从多数”原则,那预测结果就是类别2(红色)。

 

K最近邻算法示意图

    

    K-NN算法中,K值的选择、实例之间距离的度量及分类决策规则是三个基本要素。

 

1.K值的选择

    K值的选择会对分类结果产生重要影响。如果k值过小,新样本选择的范围就小。只有与新样本很近的点才会被选择到,那么模型就比较复杂,容易发生过拟合。如果k值过大,新样本选择的范围增大,那么模型就会变得简单,容易发生欠拟合。举个极端的例子,如果k的值是整个训练集的样本数,那么返回的永远是训练集中类别最多的那一类,也就失去了分类的意义。。

 

2.距离的度量

    特征空间中两个实例点的距离是两个实例点相似程度的反映。K近邻的第一步,是找到x的最近邻。那么这个近邻怎么衡量呢?一般我们用距离来衡量,常见的有欧氏距离和曼哈顿距离。

 

欧式距离如下式

 

而曼哈顿距离如下式

 

3.分类决策规则及效率

    由输入实例的K个临近训练实例的多数决定输入实例的类别。这K个近临实例的权值可以相同,也可以根据一定的规则产生不同的权值,如离输入实例越近,权值相应也越大。此外,k近邻算法在实现时,要计算新样本与训练集中每一个实例的距离。这种线性搜索会大大增加时间的消耗,尤其是在数据量很大的情况下。为了提高效率,会使用KD树的方法。KD树是一种二叉树,主要是按训练集数据的不同维度的中位数来划分区域。

 

结语

    至此,我们使用了不到60行代码完成了数据集创建,划分,最优K值的寻找,K-NN算法模型建立以及评估一整套机器学习分类流程。避免了非常繁杂的数学公式以及算法理论。我们可以看出。K-NN算法非常其简单易用,整个算法中只用提供两个度量:k值和距离度量。同时也可以使用任意数量的类,而不仅仅是二进制分类器。这意味着向算法中添加新数据相当容易。

 

添加VX13125006136进行云计算,JAVA,大数据学习在线咨询,获取更多免费学习资料

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    威尼斯人app下载 版权所有

    XML 地图 | Sitemap 地图