四时宝库

程序员的知识宝库

数据可视化筛网图:如何查看行变量与列变量的关联模式?

数据可视化筛网图。

你知道如何查看行变量与列变量之间的关联模式吗?Orange筛网组件图显示了两因素联合表中的频数与独立性假定下期望频数的对比,并突出了行变量与列变量之间的关联模式。输入数据集和特征,输出选中数据和添加是否被选中列的数据集。本节涉及2个流程,打开基本信息查看数据详情。

·打开选中组件窗口平铺,图中每个矩形的面积与预期频率成正比,而观察到的频率由每个矩形中的方格数表示。观测频率与预期频率之间的差异显示为阴影密度。使用颜色表示与独立性的偏差是正(蓝色)还是负(红色)。

按住CTRL键和鼠标单击选择多个矩形,提示部分独立性的偏差为负,显示为红色。横轴朝代宽度占比17%,纵轴高度占比17%,预期频率0.17,观测频率0,二者差异显示为阴影密度。

每个单元格中的观察频数由每个矩形中绘制的方块数表示,具有有趣关联的成对属性具有强烈的阴影。当属性同为分类特征时,矩形区域的数量同透视图表中的选中区域数。修改要显示的属性为连续属性年龄,调整透视图表行列为年龄。

透视图表数据分组,无法按数据区间进行分组。筛网图会将连续型数值属性拆分成区间,选择独立性偏差为正的数据,选择独立性偏差为负的矩形,观测频率为0,无数据被选择。

·接下来查看第二套流程。打开Orange自带数据集,使用与编辑组件将变量名称集值调整为中文。打开筛网图组件窗口,每个属性列表中存在4种选项,哪一对属性才是最佳组合?分数组合选项使属性的排名更加容易,当前选中的年龄段与幸存组合排名在最后。

来观察一下筛网图的密度,观测频率与预期频率之间的差异1%,切换至年龄段为成人,幸存为否,差异1%。切换至年龄段为儿童,幸存为是,差异1%。分数组合选项选择最佳组合,幸存为是,性别为女。观测频率与预期频率之间的差异9%,幸存为否,性别为男,观测频率与预期频率之间的差异9%。

该图表明这两个变量高度相关,因为在所有四个象限中,观察到的频率和预期频率之间存在很大差异。

·回到流程图中,使用Rank组件将特征排名后输出到筛网图中,建立组件间连线,确认Rank组件的特征连接到筛网图。

·打开选中组件窗口平铺,手动选择特征性别,筛网图两列特征同为性别,且置灰不再支持选择,属性具有强烈的阴影。

·选择排名最好的2个特征,选择特征后按住CTRL键,手动选择不相临的两个特征。

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接