随着 TensorFlow 和 PyTorch 等框架的流行,很多时候搭建神经网络也就调用几行 API 的事。大多数开发者对底层运行机制,尤其是如何使用纯 NumPy 实现神经网络变得比较陌生。以前机器之心曾介绍过如何使用 NumPy 实现简单的卷积神经网络,但今天会介绍如何使用 NumPy 实现 LSTM 等循环神经网络。
2024年07月29日
随着 TensorFlow 和 PyTorch 等框架的流行,很多时候搭建神经网络也就调用几行 API 的事。大多数开发者对底层运行机制,尤其是如何使用纯 NumPy 实现神经网络变得比较陌生。以前机器之心曾介绍过如何使用 NumPy 实现简单的卷积神经网络,但今天会介绍如何使用 NumPy 实现 LSTM 等循环神经网络。
2024年07月29日
AdaBoost 是集成学习中的一个常见的算法,它模仿“群体智慧”的原理:将单独表现不佳的模型组合起来可以形成一个强大的模型。
麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查,人们往往很难识别假新闻。但是根据不同人的经验,通常可以给出一个对于新闻真假程度的个人见解,这通常比随机猜测要好。如果我们想知道一个标题是描述了真相还是假新闻只需随机询问100个人。如果超过50人说是假新闻,我们就把它归类为假新闻。
2024年07月29日
什么是过拟合?
在训练假设函数模型h时,为了让假设函数总能很好的拟合样本特征对应的真实值y,从而使得我们所训练的假设函数缺乏泛化到新数据样本能力。
怎样解决过拟合
过拟合会在变量过多同时过少的训练时发生,我们有两个选择,一是减少特征的数量,二是正则化,今天我们来重点来讨论正则化,它通过设置惩罚项让参数θ足够小,要让我们的代价函数足够小,就要让θ足够小,由于θ是特征项前面的系数,这样就使特征项趋近于零。岭回归与Lasso就是通过在代价函数后增加正则化项。
2024年07月29日
作者 | 易执
责编 | Elle
在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式,为大家详细介绍一下这三个方法的实现原理,相信读完本文后,不论是小白还是Pandas的进阶学习者,都会对这三个方法有更深入的理解。
2024年07月29日
大数据文摘出品
编译:Apricock、睡不着的iris、JonyKai、钱天培
“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!
2024年07月29日
C4.5算法是ID3算法的改进版,它在特征选择上采用了信息增益比来解决ID3算法对取值较多的特征有偏好的问题。C4.5算法也是一种用于决策树构建的算法,它同样基于信息熵的概念。
2024年07月29日
import numpy as np np.random.seed(0) ? def compute_reciprocals(values): output=np.empty(len(values)) for i in range(len(values)): output[i]=1.0/values[i] return output ? values=np.random.randint(1,10,size=5) compute_reciprocals(values)
2024年07月29日
深度学习最大似然是一种用于参数估计的方法,它基于最大化观测数据的似然函数来确定模型的参数值。最大似然方法的基本思想是找到使得观测数据出现的概率最大的参数值,即找到使得似然函数最大化的参数值。
2024年07月29日
在本教程中,我们将使用PySpark,它是Apache Spark的Python包装器。虽然PySpark有一个很好的K-Means ++实现,但我们将从头开始编写自己的实现
开始前,确保您可以访问气象站数据集:
https://github.com/yoavfreund/UCSD_BigData_2016/tree/master/Data/Weather