偏斜数据是指分布高度不均匀的数据:当变量数据显示为直方图时,大部分数据点要么聚集在分布的左侧,长尾向右延伸(右偏斜),要么反之(左偏斜),或呈现更复杂的偏斜模式。偏斜数据对可视化,特别是热力图的绘制,提出了很大的挑战。通常情况下,人们会使用对数变换来处理这些数据。然而,经典对数变换无法处理零或负数,而伪对数变换则能够更好地处理和可视化这些数据。
2024年07月29日
偏斜数据是指分布高度不均匀的数据:当变量数据显示为直方图时,大部分数据点要么聚集在分布的左侧,长尾向右延伸(右偏斜),要么反之(左偏斜),或呈现更复杂的偏斜模式。偏斜数据对可视化,特别是热力图的绘制,提出了很大的挑战。通常情况下,人们会使用对数变换来处理这些数据。然而,经典对数变换无法处理零或负数,而伪对数变换则能够更好地处理和可视化这些数据。
2024年07月29日
熵(Entropy)在机器学习中是一个重要的概念,尤其是在决策树算法和信息理论中。熵用于量化数据集的不确定性或杂乱无章的程度。在决策树中,熵帮助我们确定哪个特征最好地分割数据集,以便尽可能清晰地分类数据点。熵不仅用于构建决策树,也是评估分类问题中不同模型或特征选择方法效果的有用工具。理解和计算熵对于设计高效的机器学习模型至关重要。
2024年07月29日
导入所需的Python库
import numpy as np import pandas as pd eps = np.finfo(float).eps from numpy import log2 as log
2024年07月29日
映射{x}→{y}
定义:两个非空集合 X、 Y,若存在法则 f,使 X中每个元素 x在 Y中都能确定唯一元素 y与之对应,则称 f为
X到 Y的映射,即 作 f: x→y
2024年07月29日
决策树是一类极为常用的机器学习方法,尤其是在分类场景。决策树通过树形结构来递归地将样本分割到不同的叶子结点中去,并根据每个叶子结点中的样本构成对该结点中的样本进行分类。
2024年07月29日
上一节讲得是模型评估,主要有ROC曲线、KS曲线、学习曲线和混淆矩阵。今天学习如何实现评分卡和对评分卡进行评估。
? 首先,要了解评分卡是如何从概率映射到评分的,这个之前写过评分卡映射的逻辑。见逻辑回归卡评分映射逻辑,一定要看,明白概率如何映射到评分的以及每个变量的得分如何计算。附上评分卡映射的代码。结合逻辑回归评分卡映射的原理才能看懂代码。