<tfoot draggable='sEl'></tfoot>

Hadoop和Hive的数据处理流程

Hadoop和Hive的数据处理流程

需求

场景:统计每日用户登陆总数

每分钟的原始日志内容如下:

http://HdhCmsTestblue测试数据/uid=xxxxxx&ip=xxxxxx

假设只有两个字段,uid和ip,其中uid是用户的uid，是用户的唯一标识，ip是用户的登陆ip，每日的记录行数是10亿，要统计出一天用户登陆的总数。

处理流程

建表

那么我们首先要在hive里建表，建表语句如下:

 CREATE TABLE login (
  uid  STRING,
  ip  STRING
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY   '  ,  '  
STORED AS TEXTFILE;

其实表名是login,字段之间以,隔开,存储是TEXT,其次还以dt这个字段作为分区。

创建成功之后,会看到hdfs上创建了/user/hive/warehouse/login这个目录。

格式化原始日志

将每天的每分钟的原始日志，转换成以下文件格式

 123 , 17.6 . 2.6 
 112 , 11.3 . 6.2  
………..

根据文件大小，合并文件，例如合并为24个文件。

入库

格式完毕，就可以把数据入库到hive了，假设今天是执行命令

LOAD DATA  INPATH  '  /data/login/20120713/*  '  OVERWRITE INTO TABLE login PARTITION (dt= '  20120713  ' );

执行成功会，转换过的文件会上传到hdfs的/user/hive/warehouse/login/dt=20120713这个目录里。

分析

在hive执行以下语句

 select  count(distinct uid)  from  login  where  dt=’  20120713 ’;

使用dt这个分区条件查询，就可以避免hive去查询其他分区的文件，减少IO操作，这个是hive分区很重要的特性，也是以天为单位，作为login表分区的重要意义。

执行完毕后，就可以在命令里出现结果，一般通过管道执行hive shell命令，读取管道的内容，把结果入库到mysql里就完成了分析了。

分类: hadoop

标签: hive_应用

作者： Leo_wl

　　　　

出处： http://HdhCmsTestcnblogs测试数据/Leo_wl/

　　　　

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

版权信息

查看更多关于Hadoop和Hive的数据处理流程的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did48420

更新时间：2022-09-24 阅读：49次

上一篇：《算法导论》CLRS算法C++实现（十二）P208 最长公共子序列LCS

下一篇：Google Test 测试架构探究