跳到主要内容

数据分析组件

  1. 概述
  2. 输入输出桩具体类型
    • 数据分析组件的输入输出桩,在拖动到后面板中后,点击输入/输出桩的展开按钮,可以看到有"具体类型"的输入框,如下图:

image.png

  • 具体类型代表了节点输入输出桩所使用的数据格式,默认为dataframe。其中文本数据源组件的输出桩,支持dataframe类型;数据聚合组件的数据格式,则由页面中的操作决定,详见数据聚合组件的文档。
  • 数据分析组件支持的具体类型说明 | 具体类型 | 说明 | 链接 | | :---: | :---: | :---: | | csv文件
    | 输入输出为.csv文件 | | | h5文件 | 输入输出为.h5文件 | | | parquet文件 | 输入输出为.parquet文件 | | | sqlite数据文件 | 输入输出为.sqlite文件,目前只有数据聚合组件的输入支持sqlite类型,代表组件进入Sql模式,具体见数据聚合组件的文档 | | | JSON | 输入输出为json格式字符串,支持的格式如下:
    - {"a": 1, "b": 2}
    - [{"a": 1, "b": 2}, {"a": 3, "b": 4}]
    - {"a": [1, 2], "b": [3, 4]}
    | |
  1. 数据接收方式
    • 组件被拖入到后面板之后,默认的接收上游节点数据的方式为同步接收;对于有多个输入桩的组件,同步接收代表着只有组件收到了同一个request id的数据的之后,才会进行相应的操作与计算,否则会表现出数据已经发送,但是组件"卡住"没有反应的一种现象;鉴于同一个request id的数据比较不容易做到,所以在拖入有多个输入桩的组件时,需要将接收方式改为"异步接收"。
    • 在数据分析组件中,数据联接以及数据合并组件都是带有多个输入桩的组件,拖入后面板之后需要修改接收方式。
    • 修改数据接收方式的方法:选中相应节点,在所选节点的右面板中,点击"接收上游节点数据方式"下拉框,选择"异步接收",如下图:

image.png

  1. 页面说明
    • 数据分析组件都有一个进行操作的页面,页面的打开方式:选中相应节点,在所选节点的右面板中,点击"操作页面"按钮,即可在新标签页打开组件的操作页面,如下图:

image.png

  1. 执行模式
    • 目前仅数据聚合组件才会有执行模型的判断和切换
      • 当输入桩具体类型为Sqlite时,组件进去Sql模式,该模式下,会使用sqlite引擎,采用sql的方式进行数据的聚合操作。
      • 当输入桩具体类型为其他时,组件进去Pandas模型,该模式下,采用Pandas函数进行聚合操作。
  2. 数据概览页面说明
    • 数据清洗、数据操作组件在页面右侧,都会有数据概览页,如下图所示:

image.png

  - 上半部分,为数据的分布概览
- 对于字符串、布尔值、日期类型的数据,分布为每一个取值所对应的数量
- 对于数值类型的数据,分布默认为频率区间分布,也可以切换为每一个取值所对应的数量
- 下半部分,为每一列具体的数据,缺失的值以"-"表示,初始默认加载100行,当用户向下滚动操作的时侯,会动态获取新的数据,每次100条,直到所有数据获取完为止。
  • 数据清洗、数据操作组件在页面左上方,都会有数据的条数与列数汇总,如下图所示:

image.png

  1. 组件输入发生变化,例如字段的名称、类型或者字段数产生了改变,则组件的页面会进行重置,所做的操作也会被重置清零
  2. 关于数据源组件输出的说明(文本数据读取组件,数据库读取组件、随机数据生成组件,常用数据集组件)
    • 组件本身带有一个触发器,可以按照固定的时间间隔发送数据,间隔可以在组件的右面板参数栏中进行配置,如下图所示,数据单位为秒:

image.png

  • 为了防止重复数据不断发送,所以组件内会判断数据是否发生了变化,仅当数据发生了变化以及到了数据发送的间隔,才会向下一个节点发送数据。
  • 有些时候,存在需要重复发送数据的情况时,组件提供了输入端口,当该端口接收到数据时,即认为触发了发送,数据会立刻被发送到下一个节点。
  1. 数据库读取、文本数据读取、数据清洗、数据合并、数据连接以及数据聚合组件,都可以在页面的右上角设置输出的格式
    • 数据库读取、文本数据读取组件仅支持table格式、json格式以及符合echarts的格式三种选项
    • 输出格式说明
      • 点击"table格式",输出csv格式的文本数据。
      • 点击"json格式",输出json格式的数据,格式为:
[{"activity": "下发货物", "caseid": 45899034}, {"activity": "交付拦截", "caseid": 4775845}]
  - 点击"符合echarts的格式",输出符合echarts格式的数据,格式为:
[["activity", "caseid"], ["下发货物", 45899034], ["交付拦截", 4775845], ["修改物料", 4086627]]
  - 点击"字符串",需要用户点击具体数值(某字段某个值),输出字符串
- 在字段所有数据表中,左击选中某数据,点击【设置输出格式】中的"字符串"输出。

字符串输出格式1.png

     - 在字段所有数据表中,右击选中某数据,弹出菜单,选择"输出该值"。

字符串输出格式2.png

  1. 数据类型图案说明
  • 字符串:

  • 数值:

  • 日期:

  • 布尔型:

  1. 数据源组件输入
  • 数据源组件输入端口接收一个字符串类型的数据,比如可以接前面板的按钮组件、定时触发组件等
  • 组件接收到数据后,就会触发执行后续操作