2024年07月29日

岭回归-减少过拟合问题（岭回归的损失函数）

什么是过拟合？
在训练假设函数模型h时，为了让假设函数总能很好的拟合样本特征对应的真实值y，从而使得我们所训练的假设函数缺乏泛化到新数据样本能力。

怎样解决过拟合

过拟合会在变量过多同时过少的训练时发生，我们有两个选择，一是减少特征的数量，二是正则化，今天我们来重点来讨论正则化，它通过设置惩罚项让参数θ足够小，要让我们的代价函数足够小，就要让θ足够小，由于θ是特征项前面的系数，这样就使特征项趋近于零。岭回归与Lasso就是通过在代价函数后增加正则化项。

2024年07月29日

Pandas 数据处理三板斧，你会几板?

作者 | 易执

责编 | Elle

在日常的数据处理中，经常会对一个DataFrame进行逐行、逐列和逐元素的操作，对应这些操作，Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式，为大家详细介绍一下这三个方法的实现原理，相信读完本文后，不论是小白还是Pandas的进阶学习者，都会对这三个方法有更深入的理解。

2024年07月29日

机器学习大牛最常用的5个回归损失函数，你知道几个?

大数据文摘出品

编译：Apricock、睡不着的iris、JonyKai、钱天培

“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么？这些可都是机器学习大牛最常用的回归损失函数哦！

2024年07月29日

import numpy as np
np.random.seed(0)
?
def compute_reciprocals(values):
 output=np.empty(len(values))
 for i in range(len(values)):
 output[i]=1.0/values[i]
 return output
?
values=np.random.randint(1,10,size=5)
compute_reciprocals(values)

2024年07月29日

深度学习第五章机器学习基础后半部分

深度学习最大似然是一种用于参数估计的方法，它基于最大化观测数据的似然函数来确定模型的参数值。最大似然方法的基本思想是找到使得观测数据出现的概率最大的参数值，即找到使得似然函数最大化的参数值。

2024年07月29日

K-Means ++在Python和Spark中的实现

在本教程中，我们将使用PySpark，它是Apache Spark的Python包装器。虽然PySpark有一个很好的K-Means ++实现，但我们将从头开始编写自己的实现

将数据集加载为RDD

开始前，确保您可以访问气象站数据集：

https://github.com/yoavfreund/UCSD_BigData_2016/tree/master/Data/Weather

2024年07月29日

决策树的Python实现(含代码)（决策树模型python）

一天，小迪与小西想养一只宠物。

小西：小迪小迪，好想养一只宠物呀，但是不知道养那种宠物比较合适。

小迪：好呀，养只宠物会给我们的生活带来很多乐趣呢。不过养什么宠物可要考虑好，这可不能马虎。我们需要考虑一些比较重要的问题。

小西：我也考虑了好多呀，可是还是很难去选择。我想养可爱的小兔兔，可是兔兔吃得很挑剔，又想养狗狗，可是狗狗每天都需要遛它，怕自己没有时间呀。

2024年07月29日

基于Python的决策树分类器与剪枝（python 决策树分类）

决策树通常包括：

根节点-表示被进一步划分为同质组的样本或总体
拆分-将节点分为两个子节点的过程
决策节点-当一个子节点根据某个条件拆分为其他子节点时，称为决策节点

四时宝库

程序员的知识宝库

岭回归-减少过拟合问题（岭回归的损失函数）

Pandas 数据处理三板斧，你会几板?

机器学习大牛最常用的5个回归损失函数，你知道几个?

C4.5算法解释（c45算法过程）

python实现Lasso回归分析(特征筛选、建模预测)

numpy实战(3)（numpy基本操作）

深度学习第五章机器学习基础后半部分

K-Means ++在Python和Spark中的实现

将数据集加载为RDD

决策树的Python实现(含代码)（决策树模型python）

基于Python的决策树分类器与剪枝（python 决策树分类）