跳到主要内容

数据多维分析组件总体介绍文档

https://xuelangyun.yuque.com/docs/share/7cc07823-9da6-47b2-b373-247a116afc6d?# 《数据分析组件》

1. 界面

大致分为四部分,如下图所示。1,2,3,4部分分别按顺序对应工具栏,操作历史栏,数据详情,数据概览。 image.png

1.1 工具栏:

包括常用操作,字段搜索功能,输出类型设置功能与数据的行数字段数显示,位于页面上方。

1.2 操作历史栏:

数据清洗的操作历史,位于页面的左侧栏,可对历史操作进行删除。由于操作具有前后顺序,可能会有依赖,删除时需要注意操作间的依赖,否则会删除失败

1.3 数据详情:

显示数据详细信息,右击某行可弹出菜单。

1.4 数据概览:

以多个字段卡片的形式显示每个字段的统计信息,包含数据类型转换按钮,排序按钮,右击卡片可弹出操作菜单。操作菜单结构如下图所示。

点击查看【processon】

2. 工具栏

工具栏最左端显示组件名称——清洗。并且显示数据字段数与行数 image.png 常用操作按钮位于工具栏中部(仅当选中字段卡片后显示)。具体功能介绍见数据概览区介绍。 image.png 搜索框位于工具栏中部,输入字段名可进行搜索 image.png 设置输出格式按钮位于工具栏最右侧,点击后可选择输出格式,鼠标悬浮于选项可弹出提示信息。 image.png

3. 操作历史栏

显示所有历史操作,可选择若干步骤后删除,也可以全选后删除所有操作。 image.png

4. 数据详情区

显示数据详情,默认展示前100条,右键某行后弹出菜单,可选择
1.只保留:只保留该行,删除其余所有行
2.排除:删除该行 image.png

5. 数据概览

5.1 数据类型转换按钮

该按钮显示字段的当前数据类型,点击弹出菜单中的类型选项可将该字段转换为该类型。
注:一些非法操作可导致错误,例如将非数字的字符串字段转换为浮点数类型。 image.png

5.2 排序按钮

点击后弹出排序菜单,选择配置后可将数据进行相应排序 image.png

5.3 修改字段顺序

选中需要修改的列,拖动到相应的位置即可修改列的顺序。如下图所示: image.png

5.4 操作菜单按钮

可通过点按钮或者右击字段卡片任意位置弹出 image.png

5.3.1筛选器

条件筛选

点击添加按钮可添加筛选条件,这些筛选条件之间的关系由条件关系中的“与”或者“或”决定。在字段名下拉框中可选择字段,选择不同类型的字段后,操作下拉框中的选项也会不同。 image.png

字符串、日期、布尔类型字段可选操作数值类型类型可选操作
删除空值删除空值
保留空值保留空值
等于等于
不等于大于等于
属于小于等于
不属于大于
包含小于
不包含
以...开头
以...结尾
符合(支持正则匹配)

计算

用户可输入自定义表达式进行筛选。要求表达式返回的结果必须为布尔值。输入@可扩展匹配当前所有字段。 image.png

5.3.2 清理

缺失值填充

填充该字段中的空缺值,空缺值以“—”显示。不同类型的字段可选的填充方式不同。 image.png

字符串、布尔值、日期类型数值类型
指定值:使用用户输入值进行填充平均数:使用该列的平均数填充缺失值
最多的值:使用该列最多的值进行填充中位数:使用该列的中位数填充缺失值
最大值:使用该列的最大值填充缺失值
最小值:使用该列的最小值填充缺失值
0:使用0填充缺失值
指定值:使用用户输入值进行填充

去重

可以按Ctrl键同时进行鼠标点击,多选列,在选中"去重"按钮,同时对多个列进行去重。 image.png

抽样

提供按比例以及按固定行数两种方式进行抽样,允许一行被多次抽到会导致抽样后出现重复行。 image.png

Sigma准则

按照Sigma准则清除数据中的异常值,仅可作用于数值类型字段
参考资料:https://baike.baidu.com/item/%E6%8B%89%E4%BE%9D%E8%BE%BE%E5%87%86%E5%88%99/5678473?fromtitle=3%CF%83%E5%87%86%E5%88%99&fromid=9361985 image.png

5.3.3 拆分

仅对字符串,日期,布尔值类型生效。
手动拆分需输入分隔符,并且选择拆分后保留的字段。例如:字段初始=1,字段结尾=3,表示保留拆分后的第1-2个字段(前闭后开区间)。请勿输入0!
自动拆分,按照空格进行拆分,然后保留所有的列 image.png

5.3.4 合并

按Ctrl键同时进行鼠标点击,多选列,在选中"合并"按钮,同时对多个列进行合并(从右向左依次合并);或者拖动某一列,将其拖动到某一个目标列。默认使用“—”符号将字段合并。 image.png

5.3.5 查看

image.png

详细信息

字段卡片中的数据概览以柱状图形式展示。

概率分布密度

字段卡片中的数据概览以概率分布密度形式展示,字符串,日期,布尔值等类型字段不支持改显示形式。

5.3.6 字段常规处理

image.png

重命名

输入新列名后点击确定。也可通过双击列名直接修改,输入新列名后输入回车。 image.png image.png

复制字段

输入新列名,生成新的复制字段。 image.png

仅保留字段

可以按Ctrl键同时进行鼠标点击,多选列,选中"保留"按钮,删除除了选中列以外的所有列。

创建计算字段

生成列名(必填):新生成的列的名称,若与现有的列名重复,则会覆盖现有的列
右侧栏为函数栏,支持搜索函数,双击函数名,则函数就会出现在运算符一栏中
运算符栏(必填):填写计算的公式,支持右边的函数栏中的函数以及加减乘除等运算;当需要输入列名时,现输入@,即会出现所有可选的列,按回车即可在公式中自动填入所需要的列名。
当需要计算多个列时,可以点击左下角的"应用"按钮,组件会提交计算当前的公式,同时界面依旧会保留,可以继续输入下一个公式;点击"保存"按钮同样会提交计算当前公式,同时退出公式编辑页面,回到数据页面。 image.png

移除字段

可以按Ctrl键同时进行鼠标点击,多选列,在选中"移除"按钮,同时删除多个列。

字符串操作

仅支持字符串类型字段。

设为大写将所有字符设为大写
设为小写:将所有字符设为小写
移除字母移除字符串中的所有字母
移除数字移除字符串中的所有数字
移除标点符号移除字符串中的所有标点符号
裁剪空格裁剪字符串开头和结尾处里的所有空格
裁剪左边空格裁剪字符串开头的所有空格
裁剪右边空格裁剪字符串结尾的所有空格
裁剪所有空格裁剪字符串内包含的所有空格
裁剪额外空格将字符串内多个连续的空格裁剪为一个

插值填充

目前支持两种插值方式

  • 拉格朗日插值法
  • 牛顿插值法

数据个数参数为对应插值法中的K值。 image.png

时间加减

仅支持日期类型字段,可将字段值加/减一个时间值,或者加/减另一个字段。 image.png

5.3.7 特殊类型转换

image.png

标签编码

该功能可以将一个字符串、日期、布尔类型的列,转换为数值类型的列,供后续算法的使用

日期/时间戳转换

如下图所示,该功能一共有四类功能:

  • 时间戳转日期:将时间戳(秒)转换为所选格式的日期字符串。当选择"其他"选项时,需要再输入自定义的格式。
  • 日期转时间戳:将所选格式的日期字符串转换为时间戳(秒)
  • 转换日期格式:将一种日期格式,转换为所选的日期格式
  • 转换时间单位:转换时间单位,可选小时、分钟、秒等。

注:该功能默认数据为北京时间 image.png

日期/时间操作

仅对日期类型字段生效。如下图所示,需要填入操作名称以及新生成的列名。 image.png

计算执行时间

(该功能将在未来版本中被删除)
需要填入case id列的列名,case时间列的列名以及最终需要生成的执行时间列的列名。

功能解释:对数据按照Case ID字段进行分组(group by),然后计算每组中的时间字段最大值与最小值之差,作为执行时间。 image.png

5.3.8 数据分析

相关性分析

该功能仅支持数值类型字段,使用前需选中多个字段卡片。按Ctrl键同时进行鼠标点击,选中多个字段卡片,在选中"相关性分析"按钮,同时对多个列进行相关性分析,生成相关性热力图。如下图所示 image.png

数据质量检验

生成一个选中字段的统计信息报表,如下图所示: image.png 指标解释:

missing缺失值的比例
inifnite无穷大值的比例
id-ness所有不同值的个数占总数的比例
stability数量最多的数值个数占总数的比例
valid1减去以上四个值
count总数
unique不同计数
top取值数量最多的值
freq取值数量最多的值的个数
mean平均值
std标准差
max最大值
25%25%分位数
50%50%分位数
75%75%分位数

箱型图分析

仅支持数值类型字段,选中单个或者多个字段卡片,生成箱形图。如下所示 image.png

数据离散化

将字段数据进行分类(分桶),仅支持数值类型字段。离散化方式提供三个选项:

  • 等频:每个类中数据量相等
  • 等宽:每个分类区间的宽度相等
  • Kmeans:根据kmeans算法将数据分类

分桶个数代表将数据分为几类。例如分桶个数=2,该字段所有数据将会被转化为0与1,分别代表分类1与分类2. image.png

5.3.9 自定义字段操作

用户可在输入框中输入python代码,用户需定义一个python函数(默认函数名为"f",请勿修改函数名),点击确定后,该函数将作用于选中的字段。例如下图中,该函数会将目标字段中的每个数据加上一个0-3之间的随机整数。 image.png