‍‍博主:发量不足

本期更新内容:Spark MLlib分类

下篇文章预告:Hadoop全分布部署

简介:耐心,自信来源于你强大的思想和知识基础!!

目录

一、线性支持向量机

二、逻辑回归


MLB支持多种分类分新方法。如一元分类、多元分类

分析方法

相关算法

二元分类

线性支持向量机、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯

多元分类

逻辑回归、决策树、随机森林朴素贝叶斯

本文章主要介绍Spark MLlib的两种线性分类方法:线性支持向量机(SVM)和逻辑回归

一、线性支持向量机

线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析

通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。
MLlib中对支持向量机算法有较好的支持,用来解决一般线性回归和逻辑回归不好处理的数据分类内容,结果验证其准确性较好。

1.导入线性支持向量机所需包

2.导入二元分类评估类

3.MLUtils提供了一些辅助方法,用于加载,保存和预处理MLLib中使用的数据

4.加载Spark官方提供数据集

5.将数据的60%分为训练数据,40%分为测试数据

6.设置迭代次数

7.执行算法来构建模型

8.用测试数据评估模型

9.获取评估指标

10.计算二元分类的PR和ROC曲线下的面积

11.保存并加载模型

二、逻辑回归

逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。

逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同,因此其解法和生成曲线也不尽相同。逻辑回归也是无监督学习的一个重要算法,特别是用在二分分类中。
逻辑回归实际上就是对已有数据进行分析从而判断其结果可能是多少,它可以通过数学公式来表达。MLlib中MulticlassMetrics类是对数据进行分类的类,其中包括各种方法。

1.导人逻辑回归所需包

2.导入分类评估器

3.加载spark官方提供数据集

4.将数据的60%分为训练数据,40%分为测试数据

5.运行训练算法来构建模型

6.用测试数据评估模型

7.获取评估指标

8.保存并加载模型