博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于sqoop导入数据的时候添加--split-by配置项对sqoop的导入速度的影响。
阅读量:4679 次
发布时间:2019-06-09

本文共 648 字,大约阅读时间需要 2 分钟。

最近在搞sqoop的导入导出操作。但是今天遇到一个表数据量特别大。我们想通过sqoop的导入功能对数据进行导入,但是从oracle当中导入数据的时候,如果是需要平行导入的话必须使用--split-by,也就是设置map的数量。

一种就是不指定--split-by(切分的字段)直接使用一个map的形式就行导入操作。

我这张表的数据是40G,我将其用10个map进行导入,然后按照其中一个number类型的字段进行对数据进行切分。然后导入,导入的脚本如下:

#!/bin/bashurl="jdbc:oracle:thin:@172.16.250.10:1521:stupor"database="XD_CORE"tables=("report_residual_money_detail_fields")tables_num=${#tables[@]}username="qry_read"password="****"for((i=0;i

下面是我执行真个脚本的时候导入花费的时间。做了一个对比。

 

 

 

 

 

 

这里可以看出,原来是4个map导入数据,后面换成10个map导入数据。这里的导入时间虽然没有减少很多,但是时间还是减少了一些。

具体的原理参考下面的连接,这位老哥说的很不错:

https://blog.csdn.net/weixin_40137479/article/details/79117358

 

转载于:https://www.cnblogs.com/gxgd/p/9720705.html

你可能感兴趣的文章
java 过滤器权限控制_JAVA过滤器,实现登陆权限限制
查看>>
设计模式java 模板模式_java设计模式--模板方法模式
查看>>
中缀转后缀 java_Java 利用堆栈将中缀表达式转换成后缀
查看>>
java执行sql解析_java执行SQL语句实现查询的通用方法详解
查看>>
java中keepalived开启方式_高可用之KeepAlived(一):基本概念和配置文件分析
查看>>
java中的ejb_JAVA语言中关于EJB技术概论
查看>>
java有date类型吗_关于java中date类型的问题
查看>>
java中svg图片怎么用_svg如何使用
查看>>
java dart 官司_From Java to Dart
查看>>
java ftp 读取excel_从Excel文件读取数据表
查看>>
oracle 有哪些字典表,oracle 常用字典表
查看>>
linux c多进程多线程,linux下的C\C++多进程多线程编程简易例子
查看>>
linux 命令 考试,linux常用命令总结-第一次考试
查看>>
linux动态库编译多重依赖,Linux动态库多重依赖
查看>>
linux网卡缓冲区设置,【Linux】tcp缓冲区大小的默认值、最大值
查看>>
opus编译linux,Linux 下源码编译FFMEG
查看>>
linux 运行real basic,REALbasic 快速入门.pdf
查看>>
linux启动tomcat不停的触发gc,tomcat启动时就频繁gc和full gc
查看>>
linux uart串口驱动,X-017-KERNEL-串口驱动开发之uart driver框架
查看>>
linux 添加串口数量,如何在Linux中添加4个以上的串口设备?
查看>>