如何使用Hadoop读写数据库

2024-12-26 00:55:45
推荐回答(2个)
回答1:

我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,
或者是,读取数据库的信息写入HDFS上,不过直接使用MapReduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用Sqoop来进行数
据的迁入,迁出,使用Hive分析数据集,大多数情况下,直接使用Hadoop访问关系型数据库,可能产生比较大的数据访问压力,尤其是在数据库还是单机
的情况下,情况可能更加糟糕,在集群的模式下压力会相对少一些。

那么,今天散仙就来看下,如何直接使用Hadoop1.2.0的MR来读写操作数据库,hadoop的API提供了DBOutputFormat和
DBInputFormat这两个类,来进行与数据库交互,除此之外,我们还需要定义一个类似JAVA
Bean的实体类,来与数据库的每行记录进行对应,通常这个类要实现Writable和DBWritable接口,来重写里面的4个方法以对应获取每行记

回答2:

框架本身提供一个DBInputFormat。支持MySql和PostgreSQL(需要自己提供驱动jar包)。 需要使用其他数据库可以自己实现相应的InputFormat;实现起来也不难参照DBInputFormat即可。只要将拼接的sql语句改成适用的语法即可。