数据分析组件
- 概述
- 数据分析组件,用于对数据进行清洗、转换并进行可视化分析展示
- 组件分类
- 数据源
- 文本数据读取组件:https://xuelangyun.yuque.com/docs/share/5057271f-9235-424a-b1d7-fa1c03f76f30?# 《文本数据读取组件》
- 数据库读取组件:https://xuelangyun.yuque.com/docs/share/85da38a0-7977-4971-815a-2c2423b05de5?# 《数据库读取组件》
- 常用数据集组件:https://xuelangyun.yuque.com/docs/share/e662b1d4-b45a-4c91-9fa3-251b6003a5ec?# 《常用数据集组件》
- 随机数据生成组件:https://xuelangyun.yuque.com/docs/share/fd5184cb-d1ff-40a6-9c9f-e136c6d69d9f?# 《随机生成数据集组件》
- 数据清洗组件:https://xuelangyun.yuque.com/docs/share/a9e80531-e798-4d6c-a337-7747a44cd370?# 《数据清洗组件》
- 数据过滤组件:https://xuelangyun.yuque.com/docs/share/7b0ce573-a01a-4e50-b227-357ebba928db?# 《数据过滤组件》
- 数据操作
- 数据导出组件:https://xuelangyun.yuque.com/docs/share/09062efe-d65a-4453-85f6-d2981e75ca80?# 《文本数据导出组件》
- 数据源
- 输入输出桩具体类型
- 数据分析组件的输入输出桩,在拖动到后面板中后,点击输入/输出桩的展开按钮,可以看到有"具体类型"的输入框,如下图:
- 具体类型代表了节点输入输出桩所使用的数据格式,默认为dataframe。其中文本数据源组件的输出桩,支持dataframe类型;数据聚合组件的数据格式,则由页面中的操作决定,详见数据聚合组件的文档。
- 数据分析组件支持的具体类型说明
| 具体类型 | 说明 | 链接 |
| :---: | :---: | :---: |
| csv文件
| 输入输出为.csv文件 | | | h5文件 | 输入输出为.h5文件 | | | parquet文件 | 输入输出为.parquet文件 | | | sqlite数据文件 | 输入输出为.sqlite文件,目前只有数据聚合组件的输入支持sqlite类型,代表组件进入Sql模式,具体见数据聚合组件的文档 | | | JSON | 输入输出为json格式字符串,支持的格式如下:
- {"a": 1, "b": 2}
- [{"a": 1, "b": 2}, {"a": 3, "b": 4}]
- {"a": [1, 2], "b": [3, 4]}
| |
- 数据接收方式
- 组件被拖入到后面板之后,默认的接收上游节点数据的方式为同步接收;对于有多个输入桩的组件,同步接收代表着只有组件收到了同一个request id的数据的之后,才会进行相应的操作与计算,否则会表现出数据已经发送,但是组件"卡住"没有反应的一种现象;鉴于同一个request id的数据比较不容易做到,所以在拖入有多个输入桩的组件时,需要将接收方式改为"异步接收"。
- 在数据分析组件中,数据联接以及数据合并组件都是带有多个输入桩的组件,拖入后面板之后需要修改接收方式。
- 修改数据接收方式的方法:选中相应节点,在所选节点的右面板中,点击"接收上游节点数据方式"下拉框,选择"异步接收",如下图:
- 页面说明
- 数据分析组件都有一个进行操作的页面,页面的打开方式:选中相应节点,在所选节点的右面板中,点击"操作页面"按钮,即可在新标签页打开组件的操作页面,如下图:
- 执行模式
- 目前仅数据聚合组件才会有执行模型的判断和切换
- 当输入桩具体类型为Sqlite时,组件进去Sql模式,该模式下,会使用sqlite引擎,采用sql的方式进行数据的聚合操作。
- 当输入桩具体类型为其他时,组件进去Pandas模型,该模式下,采用Pandas函数进行聚合操作。
- 目前仅数据聚合组件才会有执行模型的判断和切换
- 数据概览页面说明
- 数据清洗、数据操作组件在页面右侧,都会有数据概览页,如下图所示:
- 上半部分,为数据的分布概览
- 对于字符串、布尔值、日期类型的数据,分布为每一个取值所对应的数量
- 对于数值类型的数据,分布默认为频率区间分布,也可以切换为每一个取值所对应的数量
- 下半部分,为每一列具体的数据,缺失的值以"-"表示,初始默认加载100行,当用户向下滚动操作的时侯,会动态获取新的数据,每次100条,直到所有数据获取完为止。
- 数据清洗、数据操作组件在页面左上方,都会有数据的条数与列数汇总,如下图所示:
- 组件输入发生变化,例如字段的名称、类型或者字段数产生了改变,则组件的页面会进行重置,所做的操作也会被重置清零。
- 关于数据源组件输出的说明(文本数据读取组件,数据库读取组件、随机数据生成组件,常用数据集组件)
- 组件本身带有一个触发器,可以按照固定的时间间隔发送数据,间隔可以在组件的右面板参数栏中进行配置,如下图所示,数据单位为秒:
- 为了防止重复数据不断发送,所以组件内会判断数据是否发生了变化,仅当数据发生了变化以及到了数据发送的间隔,才会向下一个节点发送数据。
- 有些时候,存在需要重复发送数据的情况时,组件提供了输入端口,当该端口接收到数据时,即认为触发了发送,数据会立刻被发送到下一个节点。
- 数据库读取、文本数据读取、数据清洗、数据合并、数据连接以及数据聚合组件,都可以在页面的右上角设置输出的格式
- 数据库读取、文本数据读取组件仅支持table格式、json格式以及符合echarts的格式三种选项
- 输出格式说明
- 点击"table格式",输出csv格式的文本数据。
- 点击"json格式",输出json格式的数据,格式为:
[{"activity": "下发货物", "caseid": 45899034}, {"activity": "交付拦截", "caseid": 4775845}]
- 点击"符合echarts的格式",输出符合echarts格式的数据,格式为:
[["activity", "caseid"], ["下发货物", 45899034], ["交付拦截", 4775845], ["修改物料", 4086627]]
- 点击"字符串",需要用户点击具体数值(某字段某个值),输出字符串
- 在字段所有数据表中,左击选中某数据,点击【设置输出格式】中的"字符串"输出。
- 在字段所有数据表中,右击选中某数据,弹出菜单,选择"输出该值"。
- 数据类型图案说明
- 字符串:
- 数值:
- 日期:
- 布尔型:
- 数据源组件输入
- 数据源组件输入端口接收一个字符串类型的数据,比如可以接前面板的按钮组件、定时触发组件等
- 组件接收到数据后,就会触发执行后续操作