Hang's 码场

机器学习之线性回归

概述 说起线性回归,首先要介绍一下机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标志值是离散值时是分类任务。而线性回归模型就是处理回归任务的最基础的模型。 前言 什么是线性回归,我们首先用弄清楚什么是线性,什么是非线性,还有回归到底是什么意思? 线性:两个变量...

数据分析之用户画像

摘要 用户画像,即用户信息标签化,是通过收集用户的社会属性、消费习惯、用户偏好、生活习惯、用户行为等各个维度的数据而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。 标签化就是数据的抽象能力。 互联网下半场精细化运营...

机器学习之Kmeans

概述 K-means算法,也称为K-平均或者K-均值,一般作为掌握聚类算法的第一个算法。 这里的K为常数,需事先设定,通俗地说该算法是将没有标注的 M 个样本通过迭代的方式聚集成K个簇。 在对样本进行聚集的过程往往是以样本之间的距离作为指标来划分。 简单Demo说明 如上图以 K 为2,样本集为M 来描述KMean算法,算法执行步骤如下: 选取K个点做为初始聚集的簇心(...

机器学习之KNN邻近算法

概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那么什么是KNN算法呢,接下来我们就来介绍介绍吧。 原理介绍 KNN的全称是K Nearest Neighbors,KNN是通过测量不同特征值之间的距离进行分类。它的思路是...

机器学习之朴素贝叶斯原理、实例与Python实现

摘要 初步理解一下: 对于一组输入,根据这个输入,输出有多种可能性,需要计算每一种输出的可能性,以可能性最大的那个输出作为这个输入对应的输出。 那么,如何来解决这个问题呢? 贝叶斯给出了另一个思路。根据历史记录来进行判断。 思路是这样的: 1、根据贝叶斯公式:P(输出|输入)=P(输入|输出)*P(输出)/P(输入) 2、P(输入)=历史数据中,某个输入占所有样本的比例; 3、P(...

机器学习(理论概述)

名词解释 样本数据:已经知道结果的历史数据,每一条独立的数据叫做样本。例如:一条用 户基本信息数据,包括:姓名、年龄、性别、出生地、职业、手机号。 特征:对模型训练、预测产生影响的因素称为特征。如:年龄、性别、出生地、职业。数据集:用于训练模型前准备的初始数据。 训练集:用于模型构建,在数据集中获取部分样本,用于训练模型中使用的数据称为训练集。 测试集:测试集是用于生成模...