将MySQL中的数据导入到Hive中的几种方式-技术教程-四时宝库

Sqoop方式：

步骤：

（1）在MySQL中创建一个表（例如，employees）并插入数据。

（2）在Hive中创建一个表，用于存储从MySQL中导入的数据。例如：

CREATE TABLE employees (
  id INT,
  name STRING,
  age INT
)
STORED AS ORC;

（3）使用Sqoop导入MySQL中的数据到Hive中。例如：

sqoop import \
  --connect jdbc:mysql://localhost:3306/mydb \
  --username root \
  --password 123456 \
  --table employees \
  --hive-import \
  --hive-table employees

指令解释：

--connect：指定MySQL数据库的连接信息。
--username：指定MySQL数据库的用户名。
--password：指定MySQL数据库的密码。
--table：指定要导入的MySQL表。
--hive-import：使用Hive的导入功能。
--hive-table：指定要导入到的Hive表。

（4）在Hive中查询导入的表，检查数据是否正确。

SELECT * FROM employees;

检查方式：检查查询结果是否正确。

Hive自带的MySQL JDBC驱动方式：

步骤：

（1）在MySQL中创建一个表（例如，employees）并插入数据。

（2）在Hive中创建一个外部表，用于连接MySQL数据库。例如：

CREATE EXTERNAL TABLE employees_mysql (
  id INT,
  name STRING,
  age INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION 'jdbc:mysql://localhost:3306/mydb?user=root&password=123456&db=employees&table=employees';

指令解释：

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','：指定数据的分隔符。
LOCATION：指定MySQL数据的位置。

（3）在Hive中创建一个表，用于存储从MySQL中导入的数据。例如：

CREATE TABLE employees (
  id INT,
  name STRING,
  age INT
)
STORED AS ORC;

（4）使用INSERT INTO语句将数据从外部表导入到Hive表中。例如：

INSERT INTO TABLE employees SELECT * FROM employees_mysql;

（5）在Hive中查询导入的表，检查数据是否正确。

SELECT * FROM employees;

检查方式：检查查询结果是否正确。

使用HDFS作为中间层方式：

步骤：

（1）在MySQL中创建一个表（例如，employees）并插入数据。

（2）使用Sqoop或其他工具将MySQL中的数据导入到HDFS中。例如：

sqoop import \
  --connect jdbc:mysql://localhost:3306/mydb \
  --username root \
  --password 123456 \
  --table employees \
  --target-dir /user/hive/warehouse/employees

（3）在Hive中创建一个外部表，用于连接HDFS。例如：

CREATE EXTERNAL TABLE employees（
	id INT,
  name STRING,
  age INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/user/hive/warehouse/employees';

指令解释：

- `ROW FORMAT DELIMITED FIELDS TERMINATED BY ','`：指定数据的分隔符。

- `LOCATION`：指定HDFS数据的位置。

（4）在Hive中创建一个表，用于存储从HDFS中导入的数据。例如：

CREATE TABLE employees_hdfs ( id INT, name STRING, age INT ) STORED AS ORC;

（5）使用INSERT INTO语句将数据从外部表导入到Hive表中。例如：

INSERT INTO TABLE employees_hdfs SELECT * FROM employees;

（6）在Hive中查询导入的表，检查数据是否正确。

SELECT * FROM employees_hdfs;

检查方式：检查查询结果是否正确。

以上是将MySQL中的数据导入到Hive中的几种方式的具体操作步骤、指令/代码/脚本及验证/检查方式。在实际应用中，需要根据具体情况进行选择和调整。

最补充一些验证/检查方式：

验证/检查方式1：对比MySQL和Hive中的数据

在MySQL和Hive中分别查询相同的数据，对比查询结果是否一致。例如，可以在MySQL中查询前10条数据和在Hive中查询前10条数据，将结果进行比较。如果结果一致，说明数据正确导入。

MySQL查询示例：

SELECT * FROM employees LIMIT 10;

Hive查询示例：

SELECT * FROM employees_hdfs LIMIT 10;

验证/检查方式2：在Hive中查询导入的表并检查数据

在Hive中查询导入的表，并查看数据是否正确。例如：

SELECT COUNT(*) FROM employees_hdfs;

检查方式：检查查询结果是否正确。

验证/检查方式3：在Hive中使用JDBC将数据导出到本地文件中

在Hive中使用JDBC将数据导出到本地文件中，然后对比文件中的数据是否正确。例如：

beeline -u jdbc:hive2://localhost:10000 -n <username> -p <password> -e "SELECT * FROM employees_hdfs" > employees_hdfs.txt

检查方式：对比本地文件中的数据和MySQL中的数据是否一致。

需要注意的是，数据导入到Hive中后可能会出现数据类型不匹配、数据丢失等问题，因此需要进行一些数据清洗和转换。在实际应用中，需要根据具体业务需求和数据情况进行选择和调整。

验证/检查方式4：使用Hive的数据校验功能

Hive提供了一个数据校验功能，可以用于检查导入的数据是否正确。具体步骤如下：

（1）在Hive中创建一个空表，用于存储校验结果。例如：

sqlCopy codeCREATE TABLE employees_check (
  id INT,
  name STRING,
  age INT,
  status STRING
)
STORED AS ORC;

（2）使用以下命令运行数据校验：

sqlCopy codeINSERT INTO TABLE employees_check
SELECT id, name, age, 
  CASE WHEN EXISTS (SELECT * FROM employees_hdfs WHERE id = e.id AND name = e.name AND age = e.age) THEN 'OK' ELSE 'ERROR' END
FROM employees_hdfs e;

该命令会从employees_hdfs表中查询数据，并将每条数据的校验结果（OK或ERROR）插入到employees_check表中。

（3）查询校验结果：

sqlCopy codeSELECT * FROM employees_check;

检查方式：检查status列是否全部为OK。如果有ERROR则说明有部分数据没有正确导入。

需要注意的是，数据校验功能会对数据进行全表扫描，对于大数据量的表可能会比较耗时。在实际应用中，需要根据数据规模和性能需求进行选择和调整。

验证/检查方式5：使用Apache Nifi进行数据迁移并验证

Apache Nifi是一个开源的数据流处理工具，可以用于数据的抽取、转换、加载等操作。可以使用Nifi将MySQL中的数据抽取到Hive中，并验证数据是否正确导入。

具体步骤如下：

（1）在Nifi中创建一个数据流程。数据流程包括两个组件：一个GetTableFetch（用于从MySQL中抽取数据）、一个PutHiveQL（用于将数据导入到Hive中）。

（2）配置GetTableFetch组件，将MySQL的连接信息、要抽取的表名、要抽取的列等信息配置好。

（3）配置PutHiveQL组件，将Hive的连接信息、要导入的表名、要导入的列等信息配置好。

（4）运行数据流程，等待数据抽取和导入完成。

（5）在Hive中查询导入的表，检查数据是否正确。

SELECT * FROM employees;

检查方式：检查查询结果是否正确。

需要注意的是，Nifi的使用需要一定的配置和开发经验，适合处理较为复杂的数据处理场景。在实际应用中，需要根据具体情况进行选择和调整。

附送，使用Apache NiFi将MySQL中的数据抽取到Hive中

步骤：

（1）在Nifi中创建一个数据流程。数据流程包括两个组件：一个GetTableFetch（用于从MySQL中抽取数据）、一个PutHiveQL（用于将数据导入到Hive中）。

（2）配置GetTableFetch组件：

点击GetTableFetch组件，打开配置面板。
在面板中，点击"Properties"选项卡，配置MySQL的连接信息。

"Database Connection Pooling Service"：选择一个已经配置好的连接池。
"Table Name"：要抽取的表名。
"Columns to Return"：要抽取的列。
"Maximum-value Column Name"：要使用的最大值列。
"Maximum-value Column Value"：要使用的最大值。

点击"Settings"选项卡，配置抽取策略。

"Fetch Size"：每次抽取的数据量。
"Maximum-value"：最大值。

点击"Relationships"选项卡，配置输出关系。

"failure"：抽取失败。
"original"：原始数据。
"new"：新的抽取数据。

点击"Properties"选项卡，配置PutHiveQL的连接信息。

"Database Connection Pooling Service"：选择一个已经配置好的连接池。
"Hive Database Name"：要导入数据的数据库名。
"Table Name"：要导入数据的表名。

（3）配置PutHiveQL组件：

点击PutHiveQL组件，打开配置面板。
在面板中，点击"Properties"选项卡，配置Hive的连接信息。
点击"Relationships"选项卡，配置输出关系。

"failure"：导入失败。
"original"：原始数据。
"new"：新的导入数据。

（4）运行数据流程。

点击Nifi页面右上角的"Start"按钮，启动数据流程。
等待数据抽取和导入完成。

（5）在Hive中查询导入的表，检查数据是否正确。

SELECT * FROM employees;

检查方式：检查查询结果是否正确。

需要注意的是，Nifi的使用需要一定的配置和开发经验，适合处理较为复杂的数据处理场景。在实际应用中，需要根据具体情况进行选择和调整。

四时宝库

程序员的知识宝库

将MySQL中的数据导入到Hive中的几种方式