数据多维分析组件总体介绍文档
https://xuelangyun.yuque.com/docs/share/7cc07823-9da6-47b2-b373-247a116afc6d?# 《数据分析组件》
1. 界面
大致分为四部分,如下图所示。1,2,3,4部分分别按顺序对应工具栏,操作历史栏,数据详情,数据概览。
1.1 工具栏:
包括常用操作,字段搜索功能,输出类型设置功能与数据的行数字段数显示,位于页面上方。
1.2 操作历史栏:
数据清洗的操作历史,位于页面的左侧栏,可对历史操作进行删除。由于操作具有前后顺序,可能会有依赖,删除时需要注意操作间的依赖,否则会删除失败
1.3 数据详情:
显示数据详细信息,右击某行可弹出菜单。
1.4 数据概览:
以多个字段卡片的形式显示每个字段的统计信息,包含数据类型转换按钮,排序按钮,右击卡片可弹出操作菜单。操作菜单结构如下图所示。
2. 工具栏
工具栏最左端显示组件名称——清洗。并且显示数据字段数与行数
常用操作按钮位于工具栏中部(仅当选中字段卡片后显示)。具体功能介绍见数据概览区介绍。
搜索框位于工具栏中部,输入字段名可进行搜索
设置输出格式按钮位于工具栏最右侧,点击后可选择输出格式,鼠标悬浮于选项可弹出提示信息。
3. 操作历史栏
显示所有历史操作,可选择若干步骤后删除,也可以全选后删除所有操作。
4. 数据详情区
显示数据详情,默认展示前100条,右键某行后弹出菜单,可选择
1.只保留:只保留该行,删除其余所有行
2.排除:删除该行
5. 数据概览
5.1 数据类型转换按钮
该按钮显示字段的当前数据类型,点击弹出菜单中的类型选项可将该字段转换为该类型。
注:一些非法操作可导致错误,例如将非数字的字符串字段转换为浮点数类型。
5.2 排序按钮
点击后弹出排序菜单,选择配置后可将数据进行相应排序
5.3 修改字段顺序
选中需要修改的列,拖动到相应的位置即可修改列的顺序。如下图所示:
5.4 操作菜单按钮
可通过点按钮或者右击字段卡片任意位置弹出
5.3.1筛选器
条件筛选
点击添加按钮可添加筛选条件,这些筛选条件之间的关系由条件关系中的“与”或者“或”决定。在字段名下拉框中可选择字段,选择不同类型的字段后,操作下拉框中的选项也会不同。
字符串、日期、布尔类型字段可选操作 | 数值类型类型可选操作 |
---|---|
删除空值 | 删除空值 |
保留空值 | 保留空值 |
等于 | 等于 |
不等于 | 大于等于 |
属于 | 小于等于 |
不属于 | 大于 |
包含 | 小于 |
不包含 | |
以...开头 | |
以...结尾 | |
符合(支持正则匹配) |
计算
用户可输入自定义表达式进行筛选。要求表达式返回的结果必须为布尔值。输入@可扩展匹配当前所有字段。
5.3.2 清理
缺失值填充
填充该字段中的空缺值,空缺值以“—”显示。不同类型的字段可选的填充方式不同。
字符串、布尔值、日期类型 | 数值类型 |
---|---|
指定值:使用用户输入值进行填充 | 平均数:使用该列的平均数填充缺失值 |
最多的值:使用该列最多的值进行填充 | 中位数:使用该列的中位数填充缺失值 |
最大值:使用该列的最大值填充缺失值 | |
最小值:使用该列的最小值填充缺失值 | |
0:使用0填充缺失值 | |
指定值:使用用户输入值进行填充 |
去重
可以按Ctrl键同时进行鼠标点击,多选列,在选中"去重"按钮,同时对多个列进行去重。
抽样
提供按比例以及按固定行数两种方式进行抽样,允许一行被多次抽到会导致抽样后出现重复行。
Sigma准则
按照Sigma准则清除数据中的异常值,仅可作用于数值类型字段
参考资料:https://baike.baidu.com/item/%E6%8B%89%E4%BE%9D%E8%BE%BE%E5%87%86%E5%88%99/5678473?fromtitle=3%CF%83%E5%87%86%E5%88%99&fromid=9361985
5.3.3 拆分
仅对字符串,日期,布尔值类型生效。
手动拆分需输入分隔符,并且选择拆分后保留的字段。例如:字段初始=1,字段结尾=3,表示保留拆分后的第1-2个字段(前闭后开区间)。请勿输入0!
自动拆分,按照空格进行拆分,然后保留所有的列
5.3.4 合并
按Ctrl键同时进行鼠标点击,多选列,在选中"合并"按钮,同时对多个列进行合并(从右向左依次合并);或者拖动某一列,将其拖动到某一个目标列。默认使用“—”符号将字段合并。
5.3.5 查看
详细信息
字段卡片中的数据概览以柱状图形式展示。
概率分布密度
字段卡片中的数据概览以概率分布密度形式展示,字符串,日期,布尔值等类型字段不支持改显示形式。
5.3.6 字段常规处理
重命名
输入新列名后点击确定。也可通过双击列名直接修改,输入新列名后输入回车。
复制字段
输入新列名,生成新的复制字段。
仅保留字段
可以按Ctrl键同时进行鼠标点击,多选列,选中"保留"按钮,删除除了选中列以外的所有列。
创建计算字段
生成列名(必填):新生成的列的名称,若与现有的列名重复,则会覆盖现有的列
右侧栏为函数栏,支持搜索函数,双击函数名,则函数就会出现在运算符一栏中
运算符栏(必填):填写计算的公式,支持右边的函数栏中的函数以及加减乘除等运算;当需要输入列名时,现输入@,即会出现所有可选的列,按回车即可在公式中自动填入所需要的列名。
当需要计算多个列时,可以点击左下角的"应用"按钮,组件会提交计算当前的公式,同时界面依旧会保留,可以继续输入下一个公式;点击"保存"按钮同样会提交计算当前公式,同时退出公式编辑页面,回到数据页面。
移除字段
可以按Ctrl键同时进行鼠标点击,多选列,在选中"移除"按钮,同时删除多个列。
字符串操作
仅支持字符串类型字段。
设为大写 | 将所有字符设为大写 |
---|---|
设为小写: | 将所有字符设为小写 |
移除字母 | 移除字符串中的所有字母 |
移除数字 | 移除字符串中的所有数字 |
移除标点符号 | 移除字符串中的所有标点符号 |
裁剪空格 | 裁剪字符串开头和结尾处里的所有空格 |
裁剪左边空格 | 裁剪字符串开头的所有空格 |
裁剪右边空格 | 裁剪字符串结尾的所有空格 |
裁剪所有空格 | 裁剪字符串内包含的所有空格 |
裁剪额外空格 | 将字符串内多个连续的空格裁剪为一个 |
插值填充
目前支持两种插值方式
- 拉格朗日插值法
- 牛顿插值法
数据个数参数为对应插值法中的K值。
时间加减
仅支持日期类型字段,可将字段值加/减一个时间值,或者加/减另一个字段。
5.3.7 特殊类型转换
标签编码
该功能可以将一个字符串、日期、布尔类型的列,转换为数值类型的列,供后续算法的使用
日期/时间戳转换
如下图所示,该功能一共有四类功能:
- 时间戳转日期:将时间戳(秒)转换为所选格式的日期字符串。当选择"其他"选项时,需要再输入自定义的格式。
- 日期转时间戳:将所选格式的日期字符串转换为时间戳(秒)
- 转换日期格式:将一种日期格式,转换为所选的日期格式
- 转换时间单位:转换时间单位,可选小时、分钟、秒等。
注:该功能默认数据为北京时间
日期/时间操作
仅对日期类型字段生效。如下图所示,需要填入操作名称以及新生成的列名。
计算执行时间
(该功能将在未来版本中被删除)
需要填入case id列的列名,case时间列的列名以及最终需要生成的执行时间列的列名。
功能解释:对数据按照Case ID字段进行分组(group by),然后计算每组中的时间字段最大值与最小值之差,作为执行时间。
5.3.8 数据分析
相关性分析
该功能仅支持数值类型字段,使用前需选中多个字段卡片。按Ctrl键同时进行鼠标点击,选中多个字段卡片,在选中"相关性分析"按钮,同时对多个列进行相关性分析,生成相关性热力图。如下图所示
数据质量检验
生成一个选中字段的统计信息报表,如下图所示:
指标解释:
missing | 缺失值的比例 |
---|---|
inifnite | 无穷大值的比例 |
id-ness | 所有不同值的个数占总数的比例 |
stability | 数量最多的数值个数占总数的比例 |
valid | 1减去以上四个值 |
count | 总数 |
unique | 不同计数 |
top | 取值数量最多的值 |
freq | 取值数量最多的值的个数 |
mean | 平均值 |
std | 标准差 |
max | 最大值 |
25% | 25%分位数 |
50% | 50%分位数 |
75% | 75%分位数 |
箱型图分析
仅支持数值类型字段,选中单个或者多个字段卡片,生成箱形图。如下所示
数据离散化
将字段数据进行分类(分桶),仅支持数值类型字段。离散化方式提供三个选项:
- 等频:每个类中数据量相等
- 等宽:每个分类区间的宽度相等
- Kmeans:根据kmeans算法将数据分类
分桶个数代表将数据分为几类。例如分桶个数=2,该字段所有数据将会被转化为0与1,分别代表分类1与分类2.
5.3.9 自定义字段操作
用户可在输入框中输入python代码,用户需定义一个python函数(默认函数名为"f",请勿修改函数名),点击确定后,该函数将作用于选中的字段。例如下图中,该函数会将目标字段中的每个数据加上一个0-3之间的随机整数。