本文共 1362 字,大约阅读时间需要 4 分钟。
众所周知数加的数据是存储在MaxCompute(原名:ODPS)上,目前数加上所有的数据同步都是基于,通过datax插件可以在不同的数据源之间同步,常用的数据源有SFTP,Mysql,MaxCompute. datax已经开源了,但是数加使用的版本跟开源的版本略微有点不一样,参考资料: 和
数加提供的数据同步工具也是基于datax,且他们有很多的机器(在杭州ECS)专门用来运行datax,把这部分机器资源叫做默认调度资源;相对于默认调度资源,运行在我们(用户)的机器上的调度资源叫做自定义调度资源.
目前数加的默认调度资源都是在杭州ECS,而我们的大部分数据回流需要回流到北京机房或者是华北2区(和北京机房有专线通道)的ECS上,如果直接使用默认调度资源会出现datax写数据的时候是跨机房的(从杭州的ECS到北京ECS或北京机房这块目前是没有VPC专线通道的)走公网,网络不那么稳定,从而导致同步速度慢,甚至网络抖动导致任务失败.因此我们需要在北京的ECS上搭建一些调度资源(目前是2台ECS,4核16G)来解决这个问题,这样datax在从MaxCompute导数据到北京机房或者北京ECS的时候就可以通过内网的方式进行数据写入,提高速度和稳定性;聪明的你一定发现了:datax在抽取数据的时候是跨机房的,也就是数据从MaxCompute到datax的时候是跨机房的.是的没错,但是MaxCompute提供了一个VPC,而且还是免费使用,这样就能有效提高整个同步任务的速度和稳定性.
新建或修改同步任务 : 目前通过可视化界面的任务无法找到对应的表(原因跟第2点的测试一样),所以目前只能转化成脚本模式,然后需改ODPS端的`"odpsServer": "http://odps-ext.aliyun-inc.com/api",
"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",` 添加这两个是为了datax在连接MaxCompute的时候走vpc通道.如果没有这两个,则添加这里是因为我们要把数据导到北京因此使用这两个地址,如果是其他地方,请参考MaxCompute的[连接服务地址](https://help.aliyun.com/document_detail/34951.html?spm=5176.doc27989.2.7.DxwUOY "连接服务地址")
请自行查看数加的官方文档
转载地址:http://pxrua.baihongyu.com/