spark与pandas 如何构建分类模型

Posted on 2020-01-20 | In spark | | Visitors: ℃

Words count in article: 467 | Reading time ≈ 2

spark与pandas 如何构建分类模型

本章通过sklearn，鸢尾花数据，通过pandas的DataFrame与spark的DataFrame之间转化，构建spark多分类模型，并且图调参以及得到最佳参数和评价分数。具体代码流程如下：

导入相关工具包

import numpy as np
import pandas as pd

import  sklearn.datasets as sd


from pyspark.context import SparkContext
from pyspark.sql.context import  SparkSession

from pyspark.sql import Row
from pyspark.ml.linalg import Vectors
from pyspark.mllib.regression import LabeledPoint

from pyspark.ml.tuning import ParamGridBuilder,CrossValidator

from pyspark.ml.classification import LogisticRegression
from pyspark.mllib.classification import LogisticRegressionWithLBFGS, LogisticRegressionModel

from pyspark.ml.evaluation import MulticlassClassificationEvaluator,BinaryClassificationEvaluator

sparkml_151_classification_tree

Posted on 2020-01-20 | In spark | | Visitors: ℃

Words count in article: 3.7k | Reading time ≈ 19

spark-ml-1.5.1-分类模型

spark-ml-1.5.1 针对历史spark ml进行模块化整理

chapter4-梯度下降算法(Gradient Descent)

Posted on 2019-11-20 | In python | | Visitors: ℃

Words count in article: 2.4k | Reading time ≈ 9

chapter4-梯度下降算法(Gradient Descent)

求解机器学习算法的模型参数时，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。

1.梯度

在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数$f(x,y)$,分别对$x,y$进行求导，求得梯度向量是$(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})^T$ 简称$grad f(x,y)$ | $\Delta f(x,y)$,对于点为$(x_0,y_0)$,他的梯度向量值为$(\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial y_0})^T$ | $\Delta f(x_0,y_0)$,如果为三个变量，就为：$\Delta f(x,y,z)$,以此类推。

那为什么要找到函数$f(x,y)$的梯度呢？因为梯度向量是函数下降(增加)速度最快的地方。比如说，在初始点$(x_0,y_0)$ 沿着梯度向量$\Delta f(x_0,y_0)$ (-$\Delta f(x_0,y_0)$)，增加最快(下降最快)的方向，我们能够更快的找到函数的最小值(最大值)。

chapter3-感知机

Posted on 2019-11-20 | In python | | Visitors: ℃

Words count in article: 3.3k | Reading time ≈ 14

chapter3-感知机

1.概要

通过上一章最小二乘法的理论与实践，我们知道统计学学习-机器学习-深度学习，它们之间的联系与区别。本章我们将讨论感知机算法，再次讨论他们叁之间的关系。并且很有必要熟悉感知机，虽然它现在在分类模型当中已经不适用，因为泛化能力有限，能力更强的为支撑向量机(svm)。但是它在机器学习和深度学习其他深奥算法上有较大的联系，甚至为其算法逻辑实现基础。掌握它的思想，为进一步的提升，打下坚实的基础。

2.感知机模型原理

首先感知机算法是一种二分类线性算法。当然也可以提升至多维分类模型上，但是都是线性模型，对于非线性的，神经网络了解一下。感知机学习算法：用一个函数输入$x$(一个实值的向量)映射到输出值$f(x)$(一个二元值):
$$
f(x)=\begin{cases}
1 \qquad if \quad w.x + b > 0 \ \
-1 \qquad other wise
\end{cases}
$$

chapter6-神经网络

Posted on 2019-11-20 | In python | | Visitors: ℃

Words count in article: 2.6k | Reading time ≈ 11

chapter6-神经网络（neural networks）

1. 神经网络原理

这节大部分内容参考AndrewNG深度学习教学视频以及黄海广博士在github上开源的吴恩达深度学习笔记,本节知识根据自己使用经验进行基本总结，细致末梢还请看吴恩达老师讲义。

对于neural networks统计学原理，我将从下面伍个部分进行仔细探讨，因为这些部分是神经网络不可或缺的部分。我将通过与logisticRegression原理进行对比介绍，如果不知道或者不清楚的可以看前面所介绍的logistic。最后实现代码，更深一步了解简单的TensorFlow实现。并且分析机器学习和深度学习建模的联系。

损失函数
损失函数（cost function）是优化的目的。如果没有损失函数，也就没有了目标。不管是任何事情，都需要去了解问题的根本。知道问题的缘由，才能进一步进行建模优化。比如是回归还是分类。是有监督，还是无监督。使用什么统计学原理。如何筛选评价函数。这些都需要通过损失函数，与具体背景结合去构建模型。这里不考虑业务背景。现，只通过逻辑回归损失函数去优化，实现对图像的分类。即有监督。所以损失函数为：
$$
L(\theta) = -Y^Tlogh_{\theta}(X) - (E-Y)^T log(E-h_{\theta}(X))
$$

Read more »