本文作者将常用的损失函数分为了两大类:分类和回归。然后又分别对这两类进行了细分和讲解,其中回归中包含了一种不太常见的损失函数:平均偏差误差,可以用来确定模型中存在正偏差还是负偏差。
选自towards data science,作者:Ravindra Parmar,机器之心编译,参与:李诗萌、王淑婷
2024年10月04日
本文作者将常用的损失函数分为了两大类:分类和回归。然后又分别对这两类进行了细分和讲解,其中回归中包含了一种不太常见的损失函数:平均偏差误差,可以用来确定模型中存在正偏差还是负偏差。
选自towards data science,作者:Ravindra Parmar,机器之心编译,参与:李诗萌、王淑婷
2024年10月04日
逻辑回归是一种预测分析,解释因变量与一个或者多个自变量之间的关系,与线性回归不同之处在于它的目标变量有几种类别,所以逻辑回归主要用于解决回归问题。逻辑回归实际上是一个概率分类模型,产生0和1之间的p值。
2024年10月04日
Box–Muller 变换是一种快速产生符合标准正态分布随机数对的一种方法。基本思想是先得到服从均匀分布的随机数,再将服从均匀分布的随机数转变为服从标准正态分布(零期望,单位方差)的独立的随机数对。
它是由 George E. P. Box 与 Mervin E. Muller 在1958年提出,是最早运用与产生高斯白噪声的著名算法之一,它的基本原理是计算出高斯随机数的相位和幅度,进而产生高斯随机数对的算法。实际上,该方法最早是在1934年由Raymond E. A. C. Paley和Norbert Wiener明确提及的。
2024年10月04日
决策树(Decision Tree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这类算法的基础知识。
在深入研究代码之前,我们先要了解支撑决策树的数学概念:熵和信息增益
熵作为度量来量化数据集中的杂质或无序。特别是对于决策树,熵有助于衡量与一组标签相关的不确定性。数学上,数据集S的熵用以下公式计算:
2024年10月04日
在去年的文章中我们介绍过Bayesian Bootstrap,今天我们来说说Weighted Bayesian Bootstrap
贝叶斯自举法(Bayesian bootstrap)是一种统计学方法,用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法是基于贝叶斯统计学的思想,它使用贝叶斯公式来计算参数的后验分布。
在传统的非参数自举方法中,样本是从一个已知分布中抽取的,然后使用这些样本来估计这个分布的性质。然而,在实际问题中,我们通常无法获得这样的先验知识,因此需要使用其他方法来估计分布。
2024年07月29日
王小新 编译自 Medium
量子位 出品 | 公众号 QbitAI
Q-Learning是强化学习中最常用的算法之一。
Medium上有篇文章,讨论了这种算法的一个重要部分:搜索策略。
量子位搬运过来,以下为博客译文:
2024年07月29日
随着 TensorFlow 和 PyTorch 等框架的流行,很多时候搭建神经网络也就调用几行 API 的事。大多数开发者对底层运行机制,尤其是如何使用纯 NumPy 实现神经网络变得比较陌生。以前机器之心曾介绍过如何使用 NumPy 实现简单的卷积神经网络,但今天会介绍如何使用 NumPy 实现 LSTM 等循环神经网络。
2024年07月29日
AdaBoost 是集成学习中的一个常见的算法,它模仿“群体智慧”的原理:将单独表现不佳的模型组合起来可以形成一个强大的模型。
麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查,人们往往很难识别假新闻。但是根据不同人的经验,通常可以给出一个对于新闻真假程度的个人见解,这通常比随机猜测要好。如果我们想知道一个标题是描述了真相还是假新闻只需随机询问100个人。如果超过50人说是假新闻,我们就把它归类为假新闻。
2024年07月29日
什么是过拟合?
在训练假设函数模型h时,为了让假设函数总能很好的拟合样本特征对应的真实值y,从而使得我们所训练的假设函数缺乏泛化到新数据样本能力。
怎样解决过拟合
过拟合会在变量过多同时过少的训练时发生,我们有两个选择,一是减少特征的数量,二是正则化,今天我们来重点来讨论正则化,它通过设置惩罚项让参数θ足够小,要让我们的代价函数足够小,就要让θ足够小,由于θ是特征项前面的系数,这样就使特征项趋近于零。岭回归与Lasso就是通过在代价函数后增加正则化项。
2024年07月29日
作者 | 易执
责编 | Elle
在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式,为大家详细介绍一下这三个方法的实现原理,相信读完本文后,不论是小白还是Pandas的进阶学习者,都会对这三个方法有更深入的理解。