数据集成
离线同步
离线同步通过简单的配置,基于自定义的调度周期,完成海量数据迁移,支持多种异构数据源的全量与增量同步。
离线同步支持的数据源类型:
全量数据的离线同步
1.选择数据集成>离线同步 >单击右上角的新建离线任务,进入任务编辑界面进行数据源配置、字段映射和同步配置。
数据源配置:任务名称根据本次导入的数据起名称:p-suppliers 表同步;目录选择符合数据主题的目录:MES 系统数据同步。
数据目标选择系统默认数据源,选择目录,选择目标表(此目标表是在模型设计中各个层的表),贴源层的表可以通过一键建表的方式建成。
确定数据的导入位置。可选择同名映射或同行映射的批量快捷映射方法,也可以手动拖拽实现字段的映射。
同步配置:
同步配置,第一次全量数据同步,可选择“同步前清空历史数据”,确保目标表没有无关数据。
写入模式可选择替代目标表中的数据或者保留目标表中的数据。
增量数据的离线同步
选择数据集成>离线同步 >单击右上角的新建离线任务,进入任务编辑界面进行数据源配置、字段映射和同步配置。
1.数据过滤语句,根据时间戳在某时间之后的数据或者某 id 之后的数据开始导入。
SELECT *
FROM p-suppliers
WHERE ID > (SELECT MAX(ID) FROM kaixin_test.dim_supplier_info);
在目标表框内输入之前创建的目标表名称并选择。
2.字段映射,选择同名或同行映射。
3.同步配置:
因为是增量同步,所以目标表中的历史数据要保留,写入模式可选择“主键冲突,替换原有数据”
跨周期依赖:选择等待上一周期结束(数据过滤阶段用的是 id 增量)
实时同步
实时同步通过简单的配置,达到数据秒级从源端到目标端的同步,为处理或分析流数据的程序构建数据流管道。
实时同步支持的数据源类型:
接口采集
接口采集支持 Http/Https、WebService 协议与其他开放平台组件,通过配置的方式快速完成数据采集。
使用教程Http/Https1、登录虎符平台
2、选择数据集成 > 接口采集 > Http/Https进入列表页面。
3、点击新建任务配置各项参数。
1、登录虎符平台
2、选择数据集成 > 接口采集 > WebService进入列表页面。
3、点击新建任务配置各项参数。
文件采集
文件采集支持将 xlsx、xls、csv 内的数据进行采集。
使用教程1、登录虎符平台
2、选择数据集成 > 文件采集进入列表页面。
3、点击上传文件进入弹窗,支持拖拽上传与点击上传,文件格式支持 XLSX、XLS、CSV 类型。
4、上传完成点击下一步查看上传数据是否符合预期。
5、配置映射数据表,将文件内的字段与数据表字段一一映射,若不存在数据表可进行一键建表。
对象存储
对象存储是面向非结构化数据的一项集采集、存储与管理的服务,提供海量、安全、低成本、高可靠的数据存储能力。
存储管理
存储管理用于管理对象的存储,在上传任何文件到存储服务之前,需先创建存储空间。
使用教程一、新建存储空间1、登录虎符平台
2、选择数据集成 > 对象存储 > 存储管理进入列表页面。
3、单击左上角新建存储空间配置各项参数
1、选择存储空间 > 查看进入弹窗页面。
系统显示该存储空间的基础数据与基础设置
1、选择存储空间 > 编辑进入弹窗页面,存储空间 4 项配置都支持编辑。
1、选择存储空间 > 删除进入弹窗页面,系统会提示是否确认删除。
1、选择存储空间 > 文件管理进入列表页面。
2、点击右上角上传文件进行文件的上传。
3、每个对象均支持查看明细、下载、设置读写权限、删除动作。
注:此处的设置读写权限仅针对单个对象,不影响整个存储空间的权限设置。
4、查看页面支持以连接的方式向外输出,且支持连接的有效期设置。
服务工具
服务工具支持客户端工具与Java SDK,用于外部管理或使用对象存储服务。
客户端工具支持 Windows 客户端,通过下载程序安装在本地,配置本地路径与对象存储服务的存储空间完成数据的实时传输。
Java SDK下载 java SDK 资源包,内部包含使用方法与案例,Java SDK 是将已封装好的方法提供给第三方系统使用。
自定义表单
自定义表单用于创建一个个性化填报页面,发布到终端让用户填报数据。创建完成的表单只有发布之后才能被外部用户访问,表单的发布支持无认证方式与有认证方式两种。
使用教程1、登录虎符平台
2、选择数据集成 > 自定义表单进入列表页面。
3、点击新建表单进入页面,由左侧的组件拖入画布中配置表单。
4、1是表单名称,支持自定义修改;2是表名称,支持自定义修改,前缀为ods_。