在学生时代我们学习了很多函数公式甚至是简单的四则运算都可以看作是函数
如何理解函数或者运算 它一定包含两个重要的部分
2024年07月29日
映射{x}→{y}
定义:两个非空集合 X、 Y,若存在法则 f,使 X中每个元素 x在 Y中都能确定唯一元素 y与之对应,则称 f为
X到 Y的映射,即 作 f: x→y
2024年07月29日
决策树是一类极为常用的机器学习方法,尤其是在分类场景。决策树通过树形结构来递归地将样本分割到不同的叶子结点中去,并根据每个叶子结点中的样本构成对该结点中的样本进行分类。
2024年07月29日
上一节讲得是模型评估,主要有ROC曲线、KS曲线、学习曲线和混淆矩阵。今天学习如何实现评分卡和对评分卡进行评估。
? 首先,要了解评分卡是如何从概率映射到评分的,这个之前写过评分卡映射的逻辑。见逻辑回归卡评分映射逻辑,一定要看,明白概率如何映射到评分的以及每个变量的得分如何计算。附上评分卡映射的代码。结合逻辑回归评分卡映射的原理才能看懂代码。
2024年07月29日
在决策树算法中,信息增益(Information Gain)和信息增益率(Gain Ratio)是两种常用的标准来选择最佳分裂特征。它们都是基于熵(Entropy)的概念,用于量化通过选择某个特征进行分裂后数据集不确定性的减少。信息增益倾向于选择取值较多的特征,而信息增益率则试图减少这种偏好,但有时可能会过分偏向于取值较少的特征。在实际应用中,选择哪种标准取决于具体问题和数据集的特性。
2024年07月29日
关注公众号:用Python学机器学习,更多更新等着您。
上一篇文章,我们已经介绍了决策树的ID3算法,并编写了一个实现决策树ID3算法的程序。实际中,ID3算法应用并不多,C4.5才是应用较多的分类树算法。究其原因在于ID3算法存在以下几个缺点:1)倾向于选择类别较多的特征变量作为分割属性;2)无法处理连续变量;3)无法处理缺失值;4)没有完备的剪枝策略。C4.5算法在这四个方面做出了改进,这篇文章我们就来学习一下。关于剪枝策略,我们留到下一篇文章来介绍,这篇文章我们主要介绍C4.5对前三个问题的改进。
2024年07月29日
本数据纯属虚构,如有雷同实属巧合