hive从mysql导入数据量变多的解决方案

2025-06-07 09:40:15

原始导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

原因分析：可能是mysql中字段里面有'\n'等分隔符，导入hive时默认以'n'作换行符，导致hive中的记录数变多。

解决方法：

导入数据时加上--hive-drop-import-delims选项，会删除字段中的\n,\r,\01。

最终导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --hive-drop-import-delims --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

参考官方文档：https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html

补充：Sqoop导入MySQL数据到Hive遇到的坑

1.sqoop导入到HDFS

1.1执行sqoop job，会自动更新last value

# sqoop 增量导入脚本
bin/sqoop job --create sqoop_hdfs_test02 -- import \
--connect jdbc:mysql://localhost:3306/pactera_test \
--username root \
--password 123456 \
--table student \
--target-dir /user/sqoop/test002/ \
--fields-terminated-by "\t" \
--check-column last_modified \
--incremental lastmodified \
--last-value "2018-12-12 00:03:00" \
--append

说明：--append 参数是必须的，要不然第二次运行job 会报错，如下：

至此，sqoop job 已建设完毕！

2.Hive创建表，并读取sqoop导入的数据

create external table if not exists student_hive (SId int,Sname string ,Sage string,Ssex string , last_modified Timestamp)
row format delimited fields terminated by '\t' location 'hdfs://node01:8020/user/sqoop/test002/';

注意：此处hive中时间的格式为timestamp，设置为date DB数据无法正常加载。

第一次全量加载，整条路线完全OK，hive表可以查询到数据。

-----------------------重点分割线-----------------------

* sqoop lastmodified格式的增量加载，会将last-value 保存为job执行的系统时间，若测试数据库的check-column 小于当前系统时间（即上一个job的last-value），则数据将不被加载。

如SId=6 就没有被加载，遂改为今日时间（2018-12-26 17:05）进行数据测试，数据成功被加载！哟呵！！

总结：

使用lastmodified格式，进行sqoop增量导入时，

1.注意--append的使用；

2.last-value为job运行的系统时间，在数据测试时，要保证数据的准确，数据的自增长。

3.一切皆有定数，查看资料，准确定位自己系统遇到的问题

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

mysql实现从导出数据的sql文件中只导入指定的一个表

场景昨天系统自动备份了某一个数据库的全部表数据,名dbAll.sql.gz.文件较大(如40G) 今天因发现某一个表tableA的一条数据存在问题,需核对两条记录的变化.需从dbAll中找回tableA的数据,以便比较该记录. 操作方案 1.将dbAll.sql.gz导入待比较的数据库(临时数据库)中,然后比较tableA.不推介,因为数据量太大,很耗时 2.解压dbAll.sql.gz后,通过Java代码读取dbAll.sql中的关于tableA的CREATE语句及INSERT语句等到文件t
mysql导入csv的4种报错的解决方法

以此悼念我今天踩过的4个坑-- 坑一:local的错报错: ERROR 3948 (42000): Loading local data is disabled; this must be enabled on both the client and server sides 修正:去掉local mysql> load data infile -- 坑二:csv地址错报错: ERROR 1290 (HY000): The MySQL server is running with the -
MySQL如何快速导入数据

前言: 日常学习和工作中,经常会遇到导数据的需求.比如数据迁移.数据恢复.新建从库等,这些操作可能都会涉及大量数据的导入.有时候导入进度慢,电脑风扇狂转真的很让人崩溃,其实有些小技巧是可以让导入更快速的,本篇文章笔者会谈一谈如何快速的导入数据. 注:本篇文章只讨论如何快速导入由逻辑备份产生的SQL脚本,其他文件形式暂不讨论. 1.尽量减小导入文件大小首先给个建议,导出导入数据尽量使用MySQL自带的命令行工具,不要使用Navicat.workbench等图形化工具.特别是大数据量的时候,用My
hive从mysql导入数据量变多的解决方案

原始导数命令: bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-ov
MYSQL 导入数据的几种不同

Source C:\\sql.txt ; // 這種是用來執行標准的SQL 語句. for Example : insert into a(A,b,c) Values (1,2,3); LoadData C:\\data.txt MYSQL 導入數據的幾種不同// 這種是MSSQL用BCP生成的數據差不多.
解决sqoop import 导入到hive后数据量变多的问题

使用sqoop import 命令从postgresql导入数据到hive中,发现数据行数变多了,但是任务没有跑错,非常奇怪. 导入语句为: sqoop import --connect jdbc:postgresql://*.*.*.*:5432/database_name --username name111 --password password111 --table table111 --hive-import --hive-database database111 --hive-tab
MySQL 4种导入数据的方法

1.mysql 命令导入使用 mysql 命令导入语法格式为: mysql -u用户名 -p密码 < 要导入的数据库数据(runoob.sql) 实例: # mysql -uroot -p123456 < runoob.sql 以上命令将将备份的整个数据库 runoob.sql 导入. 2.source 命令导入 source 命令导入数据库需要先登录到数库终端: mysql> create database abc; # 创建数据库 mysql> use abc; # 使用已创
Java API如何实现向Hive批量导入数据

Java API实现向Hive批量导入数据 Java程序中产生的数据,如果导入oracle或者mysql库,可以通过jdbc连接insert批量操作完成,但是当前版本的hive并不支持批量insert操作,因为需要先将结果数据写入hdfs文件,然后插入Hive表中. package com.enn.idcard; import java.io.IOException; import java.sql.Connection; import java.sql.DriverManager; impor
PHP上传Excel文件导入数据到MySQL数据库示例

最近在做Excel文件导入数据到数据库.网站如果想支持批量插入数据,可以制作一个上传Excel文件,导入里面的数据内容到MySQL数据库的小程序. 要用到的工具: ThinkPHP:轻量级国产PHP开发框架.可在ThinkPHP官网下载. PHPExcel:Office Excel 文档的一个PHP类库,它基于微软的OpenXML标准和PHP语言.可在CodePlex官网下载.. 1.设计MySQL数据库product 创建product数据库 CREATE DATABASE product D
php 在线导入mysql大数据程序

php 在线导入 mysql 大数据程序 <?php header("content-type:text/html;charset=utf-8"); error_reporting(E_ALL); set_time_limit(0); $file='./test.sql'; $data=file($file); echo "<pre>"; //print_r($data); $data_new=array(); $tmp=array(); fore
mysql导入导出数据中文乱码解决方法小结

linux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 复制代码代码如下: mysqldump -uroot -p --default-character-set=utf8 dbname tablename > bak.sql 那么导入数据的时候也要使用-
MySQL中数据导入恢复的简单教程

有两个简单的方法MySQL中的数据加载到MySQL数据库从先前备份的文件. LOAD DATA导入数据: MySQL提供了LOAD DATA语句,作为一个大容量数据加载.下面是一个例子声明中,读取一个文件dump.txt,,从当前目录加载到当前数据库中的表mytbl: mysql> LOAD DATA LOCAL INFILE 'dump.txt' INTO TABLE mytbl; 如果本地的关键字是不存在的,MySQL的外观使用绝对路径名寻找到完全指定位置的文件在服务器主机上的数据文件,从文

hive从mysql导入数据量变多的解决方案

解决方法：

1.sqoop导入到HDFS

2.Hive创建表，并读取sqoop导入的数据

总结：

相关推荐

随机推荐