跳到主要内容

文本数据读取组件

  • 数据多维分析组件总体介绍文档:https://xuelangyun.yuque.com/docs/share/7cc07823-9da6-47b2-b373-247a116afc6d?# 《数据分析组件》
  • 参数
    • 强制发送:组件只有在相关配置发生修改时,才会向后面节点发送数据;当强制发送被勾选时,则会收到触发数据时就会向后面节点发送数据。
  • 界面
    • 导航:上传文件
    • 设置面板:文本设置,数据样本
    • 历史上传文件列表:展示所有已经上传的文件列表,用户可以点击选择、切换选中的文本文件
    • 如果上传的文件为Excel文件,则会进一步显示包含的工作表列表,用户可以点击切换选中的Excel工作表

image.png

  • 功能
    • 上传文件,支持上传CSV文件,文本文件以及Excel文件

image.png

  - 上传CSV文件、文本文件:如下图所示,需要设置如下参数:

image.png

  - 上传Excel文件:如下图所示,需要输入使用的工作表名称,可不填,默认为第一张工作表:

image.png

  • CSV、TEXT文件文本设置栏
    • 设置字段分隔符
      选择字段分隔符后,文本数据列表自动更新数据
      支持的字段分隔符:
      • 逗号
      • 制表符
      • 分号
      • 空格
      • 垂直条
      • 其他:出现输入框,可输入自定义分隔符

字段分隔符.png

  - 设置文本限定符<br />选择文本限定符后,文本数据列表自动更新数据<br />支持的文本限定符:
- 单引号
- 双引号
- 无

文本限定符.png

  - 设置字集符<br />选择字集符后,文本数据列表自动更新数据<br />支持的字集符:
- ASCII
- BIG5
- GB2312
- GB2312-80
- HZ-GB-2312
- GBK
- BIG5-HKSCS
- IBM037
- IBM273
- IBM424
- IBM437
- IBM500
- IBM850
- IBM775
- IBM852
- IBM855
- IBM857
- IBM858
- IBM860
- IBM861
- IBM862
- IBM863
- IBM864
- IBM865
- IBM866
- IBM869
- IBM1026
- IBM1125
- IBM1140
- windows-1250
- windows-1251
- windows-1252
- windows-1253
- windows-1254
- windows-1255
- windows-1256
- windows-1257
- windows-1258
- ISO-8859-1
- ISO-8859-2
- ISO-8859-3
- ISO-8859-4
- ISO-8859-5
- ISO-8859-6
- ISO-8859-7
- ISO-8859-8
- ISO-8859-9
- ISO-8859-10
- ISO-8859-11
- ISO-8859-13
- ISO-8859-14
- ISO-8859-15
- ISO-8859-16
- ISO-2022-JP
- ISO-2022-JP-1
- ISO-2022-JP-2
- ISO-2022-CN
- ISO-2022-KR
- UTF-8
- Latin-1

字集符.png

  • 更新字段
    • 文本数据列表选中需要更新的字段

更新选中字段.png

  - 点击【更新选中字段】按钮,确认字段是否正确,进行更新

更新选中字段2.png

  • 抽样设置
    • 抽样设置界面如下:

image.png

     - 默认使用所有的数据
- 若需要进行抽样,则选择"抽样"选项,如下所示:

image.png

     - 与"数据清洗"组件中的抽样功能类似,本组件中的抽样功能也需要输入如下参数
- 抽样类型
- 比例或者行数
- 是否允许被行被多次抽到
- 设置完毕后,点击"设置"按钮,进行确认
  • 数据库设置完成按钮:右上角"配置完成"按钮,如下图所示:

image.png

  - 关闭:代表配置未完成,节点不会向下一个节点发送数据
- 开启:代表配置完成,节点开始向下一个节点发送数据
  • 输出数据格式设置:右上角"设置输出格式"按钮,如下图所示,可以选择输出的格式:

image.png

  - table:输出结构化数据文件,例如CSV文件等
- json:形如[{"a": 1, "b": 2}, {"a": 3, "b": 4}]格式的JSON数据
- 符合echarts的格式:形如[["a", "b"], [1, 2], [3, 4]]格式的JSON数据,主要是与算盘的前面板组件对接,进行数据可视化使用