拖数据是什么意思,数据托管平台
chanong
|您只需将源端和目标端一一连接,实际上就可以完成您的数据集成任务的开发。中间没有任何任务,只有数据同步,只有数据转换。 (此时您将了解数据同步和数据集成这两个术语之间的细微差别。)
目标组件和源组件交互的最大区别在于,目标组件在数据写入过程中存在字段映射问题。 Powercenter是一个C/S架构的产品(使用Informatica Powercenter是基于2013年的版本,当时是B/S架构,后续的产品升级或者云迁移我没有涉及到,上面只是一个相互的,直接映射字段到字段。
但在B/S架构中,如果也采用这种交互方式,打开的组件太多,整个浏览器特别卡。因此,对于B/S来说,这种带有字段映射的拖拽式开发,必须以另一种形式来开发,才能完成字段映射。稍后在组件之间的字段映射中更详细地解释这部分。
3、转换组件转换组件体现了数据集成能力,转换组件越强大,拖拽式数据集成能力就越强大。转换组件的设计理念基本上是一些SQL关键字的抽象,但同时参考了PowerCenter现有的一些组件,早期设计了如下转换组件:Ta。
1. 表达式组件-Map 在表达式组件中,您可以添加新行、拆解和规范化原始行数据、添加具有默认值的新行等,以进行行级处理。
2. 过滤组件- 你实际上并不需要过滤组件,你可以直接在源组件内完成过滤。这样,整个数据集成中输入的数据就少了很多。
3. JOIN组件实现的功能与连接两个表的SQL连接逻辑相同。内部连接、外部连接等之间也有区别。该接口有两个输入和一个输出。仅支持两个输入。如果有两个以上的联接,则前两个的结果将添加到第三个表中。
4、Union组件实现两个表的并集,实现的功能与SQL并集相同。
5. 组聚合组件- 聚合器对输入表执行组聚合计算。
4. 组件之间的字段映射实现两个组件之间数据传输的方式实际上就是通过画一条线来实现。这意味着数据从上游传递到下游。所有的数据传输都是在字段级别,所以这个拉线是表级别还是字段级别并不重要。
在设计之初,我想打开两个插件,将两个插件中的每个字段映射到对应的行级映射,但另一方面,这会让交互变得非常复杂。灵活的对话。另一方面,如果字段太多并且全部开发,则会占用过多的浏览器内存并停止交互过程(CS 中的Informatica Power Center)。一旦架构开放,我们就可以进行这种现场级交互,但我们也有兴趣将其转移到云端。上传后如何与其交互)。因此,我选择了一种不同的交互媒介,仅在表级别连接表,并将所有上游字段传递到下游。字段映射发生在下游。如何在映射过程中反映字段对应关系?最简单且最无用的格式是默认的从上到下的一对一映射。
更友好的方法是将上游字段传递给下游插件,在下游插件中显示上游字段,并在下游插件中进行字段比较。如果上游字段被修改,下游什么时候拾取修改后的字段?这是通过添加本地或全局保存的能力来完成的。
源端、目标端和中间转换插件(算子)通过插件之间的映射链接相互连接。拖放式数据集成任务现已完成。
5. 是离线任务还是实时任务? 上面介绍的所有算子其实都是从离线角度来介绍的。但这同样适用于实时视角。仅中间转换运算符不同。
如果这是离线任务,您可以将其视为常规离线任务,将其放入离线DAG图中,并配置其调度。对于实时任务,您可以直接启动并运行它们。
6. 总结创建产品的过程- 将想法变为现实的过程一旦实现了拖放式数据集成,您就实现了构建产品的个人小目标。毕竟,看到自己计划的事情实现是非常令人欣慰的,也许这就是创造事物的乐趣。
本文最初由@data小叏发表于人人都是产品经理,未经许可不得转载。
标题图片由Unsplash 根据CC0 协议提供
人人产品经理平台仅提供信息存储空间服务。








