2024年07月29日

机器学习大牛最常用的5个回归损失函数，你知道几个?

大数据文摘出品

编译：Apricock、睡不着的iris、JonyKai、钱天培

“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么？这些可都是机器学习大牛最常用的回归损失函数哦！

2024年07月29日

C4.5算法解释（c45算法过程）

C4.5算法是ID3算法的改进版，它在特征选择上采用了信息增益比来解决ID3算法对取值较多的特征有偏好的问题。C4.5算法也是一种用于决策树构建的算法，它同样基于信息熵的概念。

2024年07月29日

python实现Lasso回归分析(特征筛选、建模预测)

实现功能：

2024年07月29日

numpy实战(3)（numpy基本操作）

import numpy as np
np.random.seed(0)
?
def compute_reciprocals(values):
 output=np.empty(len(values))
 for i in range(len(values)):
 output[i]=1.0/values[i]
 return output
?
values=np.random.randint(1,10,size=5)
compute_reciprocals(values)

2024年07月29日

深度学习第五章机器学习基础后半部分

深度学习最大似然是一种用于参数估计的方法，它基于最大化观测数据的似然函数来确定模型的参数值。最大似然方法的基本思想是找到使得观测数据出现的概率最大的参数值，即找到使得似然函数最大化的参数值。

2024年07月29日

K-Means ++在Python和Spark中的实现

在本教程中，我们将使用PySpark，它是Apache Spark的Python包装器。虽然PySpark有一个很好的K-Means ++实现，但我们将从头开始编写自己的实现

将数据集加载为RDD

开始前，确保您可以访问气象站数据集：

https://github.com/yoavfreund/UCSD_BigData_2016/tree/master/Data/Weather

2024年07月29日

决策树的Python实现(含代码)（决策树模型python）

一天，小迪与小西想养一只宠物。

小西：小迪小迪，好想养一只宠物呀，但是不知道养那种宠物比较合适。

小迪：好呀，养只宠物会给我们的生活带来很多乐趣呢。不过养什么宠物可要考虑好，这可不能马虎。我们需要考虑一些比较重要的问题。

小西：我也考虑了好多呀，可是还是很难去选择。我想养可爱的小兔兔，可是兔兔吃得很挑剔，又想养狗狗，可是狗狗每天都需要遛它，怕自己没有时间呀。

2024年07月29日

基于Python的决策树分类器与剪枝（python 决策树分类）

决策树通常包括：

根节点-表示被进一步划分为同质组的样本或总体
拆分-将节点分为两个子节点的过程
决策节点-当一个子节点根据某个条件拆分为其他子节点时，称为决策节点

2024年07月29日

一文带您了解伪对数(Pseudo-Log):可视化倾斜数据的黄金方法

偏斜数据是指分布高度不均匀的数据：当变量数据显示为直方图时，大部分数据点要么聚集在分布的左侧，长尾向右延伸（右偏斜），要么反之（左偏斜），或呈现更复杂的偏斜模式。偏斜数据对可视化，特别是热力图的绘制，提出了很大的挑战。通常情况下，人们会使用对数变换来处理这些数据。然而，经典对数变换无法处理零或负数，而伪对数变换则能够更好地处理和可视化这些数据。

2024年07月29日

Python 机器学习熵（python计算熵值）

熵（Entropy）在机器学习中是一个重要的概念，尤其是在决策树算法和信息理论中。熵用于量化数据集的不确定性或杂乱无章的程度。在决策树中，熵帮助我们确定哪个特征最好地分割数据集，以便尽可能清晰地分类数据点。熵不仅用于构建决策树，也是评估分类问题中不同模型或特征选择方法效果的有用工具。理解和计算熵对于设计高效的机器学习模型至关重要。

四时宝库

程序员的知识宝库

机器学习大牛最常用的5个回归损失函数，你知道几个?

C4.5算法解释（c45算法过程）

python实现Lasso回归分析(特征筛选、建模预测)

numpy实战(3)（numpy基本操作）

深度学习第五章机器学习基础后半部分

K-Means ++在Python和Spark中的实现

将数据集加载为RDD

决策树的Python实现(含代码)（决策树模型python）

基于Python的决策树分类器与剪枝（python 决策树分类）

一文带您了解伪对数(Pseudo-Log):可视化倾斜数据的黄金方法

Python 机器学习熵（python计算熵值）