hive实验

news/2024/7/2 2:40:28

利用Hive对某网站的用户数据进行分析。

1.创建dblab数据库

   命令:create database dblab;

2. 在dblab数据库下创建bigdata_user表,该表中的各种属性如下:

字段名   

 类型

  id

int

  uid

string

  item_id

string

  behavior_type

int

  item_category

string

  visit_date

date

  province

string

 

 

 

 

 

 

 

 

 

3.将用户数据导入到bigdata_user表中(数据在本地的路径为/home/hadoop/user_table.txt)

命令如下图:

注:用户数据包含7列,每列含义如下

id:记录编号,具有唯一性

uid:用户id

item_id:商品id

behavior_type:包括浏览、收藏、加购物车、购买,分别为1、2、3、4

item_category:商品分类

visit_date:该记录产生时间

province:用户所在省份

4.查看前10位用户对商品的行为

命令: select behavior_type from bigdata_user limit 10;

结果如下图:

5.查询前20位用户购买商品时的时间和商品的种类

命令:select visit_data,item_category from bigdata_user limit 20;

结果如下图:

6.用聚合函数count()计算出表内有多少条行数据

命令:select count(*) from bigdata_user;

结果如下:

7.查出uid不重复的数据有多少条
命令:select count(distinct uid) from bigdata_user;

结果如下:

8、查询2014年12月10日到2014年12月13日有多少人浏览了商品

命令:select count(*) from bigdata_user where behavior_type=’1’ and visit_date<’2014-12-13’and visit_date > ‘2014-12-10’;

结果如下:

9.查询一件商品在某天的购买比例或浏览比例

解答:求某件商品的被点击量,浏览为1,购买为4

浏览量:select count(*) from bigdata_user where visit_date = ‘2014-12-10’;

购买量:select count(*) from bigdata_user where visit_date = ‘2014-12-10’and behavior_type = ‘4’;

购买比例:购买量/浏览量

10.某个地区的用户当天浏览网站的次数(要求可以实时查询)。

命令:hive> create table scan(province string,scan int)

    > row format delimited

  > fields terminated by '\t'

    > stored as textfile;

命令:insert overwrite table scan select province,count(behavior_type) from bigdata_user where behavior_type = '1' group by province;

hive> select * from scan;

 

 

 

 

 


http://www.niftyadmin.cn/n/1425646.html

相关文章

zookeeper安装部署与使用

Zookeeper安装部署 安装包下载地址&#xff1a;https://apache.org/dist/zookeeper/ 1.下载安装包然后上传到主节点rz&#xff0c;centos上可使用 wget 地址 2.解压缩&#xff1a;tar xf 安装包 3.移动到/opt目录下mv zookeeper-3.4.12 /opt 4.修改目录权限 命令&#xff…

十进制十六进制转换

以321为例&#xff1a;先记住1、16、256、4096这几个数字&#xff0c;即16的平方、16的立方等等。 321/256 1 余 65 》写下1 65/16 4 余 1 》写下14 1/1 1 余 0 》写下141 即十进制321等于十六进制141 1.比如&#xff1a;216是16进制&#xff0c;转10进制: &#xff1d;2*…

ubuntu连接xshell出现的问题

使用Ubuntu连接xshell的时候出现以下问题&#xff1a; 解决方法&#xff1a; 在ubuntu的管理员用户下&#xff0c;安装openssh-server&#xff08;不是管理员在命令前使用sudo&#xff09; 安装成功后&#xff0c;查看是否有启动ssh,使用ps -e | grep ssh查看&#xff0c;如果…

ABC类IP地址

A类IP地址一个A类IP地址由1字节的网络地址和3字节主机地址组成&#xff0c;网络地址的最高位 必须是"0"&#xff0c; 地址范围从1.0.0.0 到126.0.0.0。可用的A类网络有126个&#xff0c;每个 网络能容纳1亿多个主机B类IP地址  一个B类IP地址由2个字节的网络地址和…

wampserver图标呈现黄色

问题&#xff1a;在使用wampserver的时候&#xff0c;启动服务的时候&#xff0c;图标一直显示黄色&#xff0c;登录phpmyAdmin登录不成功 原因&#xff1a;wampserver设置的端口号被占用&#xff0c;&#xff08;默认是80端口&#xff09; 解决方法&#xff1a;修改端口号 …

轻松架设FTP服务器

轻松架设FTP服务器TYPSoft FTP Server下载地址:http://www.skycn.com/soft/1289.html添加用户Setup→Users New User ,PasswordRoot Directory”&#xff08;根目录&#xff09;、“Directory Access” &#xff08;访问目录&#xff09;、Files(文件)和 Directory(目录)等项…

再一次有关sqlserver安装错误问题

有关sqlserver安装错误问题错误&#xff1a;以前的某个程序安装已在安装计算机上创建挂起的文件操作。运行安装程序 之前必须重新启动计算机。解决&#xff1a;打开注册表编辑器&#xff0c;在 HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Control/Session Manager中找到…

linux下安装spark

准备工作 1.将需要的jdk和spark安装包下载&#xff0c;这里都放在了/root/tools目录下 jdk的安装和设置 1. 解压缩安装包 tar -xvf jdk-8u151-linux-x64.tar.gz 2. 进入解压缩后的jdk文件中&#xff0c;使用pwd查看当前工作路径&#xff0c;然后修改文件vi ~/.bash_profile …