Hadoop学习笔记20.网站日志分析项目案例(三)统计分析

作者: 云计算机网 分类: 云计算知识 发布时间: 2016-08-12 06:10

一、借助Hive进行统计

1.1 准备工作:建立分区表

HIVE

  为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)

hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' LOCATION '/project/techbbs/cleaned';

  建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150425这一天的日志进行分区)

hive>ALTER TABLE techbbs ADD PARTITION(logdate='2015_04_25') LOCATION '/project/techbbs/cleaned/2015_04_25';  

  有关分区表的详细介绍此处不再赘述,如有不明白之处可以参考本笔记系列之17-Hive框架学习一文。

1.2 使用HQL统计关键指标

  (1)关键指标之一:PV量

  页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。这里,我们只需要统计日志中的记录个数即可,HQL代码如下:

hive>CREATE TABLE techbbs_pv_2015_04_25 AS SELECT COUNT(1) AS PV FROM techbbs WHERE logdate='2015_04_25';

  

  (2)关键指标之二:注册用户数

  该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。因此,这里我们只需要统计出日志中访问的URL是member.php?mod=register的即可,HQL代码如下:

hive>CREATE TABLE techbbs_reguser_2015_04_25 AS SELECT COUNT(1) AS REGUSER FROM techbbs WHERE logdate='2015_04_25' AND INSTR(url,'member.php?mod=register')>0;  

  

  (3)关键指标之三:独立IP数

  一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可,在SQL中我们可以通过DISTINCT关键字,在HQL中也是通过这个关键字:

hive>CREATE TABLE techbbs_ip_2015_04_25 AS SELECT COUNT(DISTINCT ip) AS IP FROM techbbs WHERE logdate='2015_04_25';

  

  • 因为现在的网络发达,网上购物非常方便,因此很多人买笔记本电脑的时候都很少会去电脑城,一般都是在网上购买,但是总有一些商家会将翻新机重新包装当成新的来卖,那要如何辨别笔记本是否是翻新机呢?现在就去看看辨别笔记本是否为翻新机的方法吧。

      因为现在的网络发达,网上购物非常方便,因此很多人买笔记本电脑的时候都很少会去电脑城,一般都是在网上购买,但是总有一些商家会将翻新机重新包装当成新的来卖,那要如何辨别笔记本是否是翻新机呢?现在就去看看辨别笔记本是否为翻新机的方法吧。

      首先我们要注意是原厂翻新的笔记本的底部会有一块标注有“This product is refurbished and contains used parts”的小标签(意思即:本产品被重新翻新并包含有使用过的零件),如图1所示,左边为一台翻新后的笔记本电脑,在底部的小红圈内即为标注为返修的小标签,而右边为一台全新的笔记本电脑,上面并没有这种小标签,下面为放大的标签部分,这个是识别IBM原厂返修笔记本的一个很重要的标志,当然有些狡猾的商家也许会将这个标签撕掉,但是这个标签即使撕掉后,也会在笔记本上留下相应的痕迹,所以如果我们在选择笔记本时发现其底部有类似的痕迹,我们完全应该有理由拒绝接受这台笔记本,因为全新的笔记本电脑上是不可能会留下这种痕迹的。

      正规厂商的翻新机会有英文标记

      另一个重要标识是在说明书上,如图2所示,在返修笔记本的说明书上,也有类似的标注,左边是返修笔记本电脑的说明书,在封面上有关于返修的相关说明,而右边则是全新笔记本电脑的说明书,封面上没有这种说明,下面为放大的说明部分,请注意划圈的几个地方,上面很清楚的注明了该笔记本内含有使用过的零件,并且保修期为1年。另外在笔记本的包装箱上也有类似标注的标签,所以我们在选择笔记本时也不要忘记检查这几个地方,如果发现了此类标签,即证明该笔记本为返修机。

      上面很清楚的注明了该笔记本内含有使用过的零件,并且保修期为1年

      以上所提到的原厂翻新笔记本因为其质量相对来说还算不错,所以对消费者的危害还比较少,而另一类完全是由一些地下作坊里所翻新的笔记本电脑,它们的质量可就完全没有保证了。因为是商家自己翻新,目前就是冒充新笔记本电脑出售,当然也不会在笔记本上留下记号,所以上面所提到的方法针对此类笔记本完全没有作用,不过我们可以按照下面的方法来进行识别:#p#分页标题#e#

      方法一:检查笔记本的表面,现在的笔记本电脑在很多地方比如键盘附近都进行了磨砂处理,这些地方表面因为经常与人体接触,时间长了就会使其变得光滑发亮,这个地方一般是很难翻新的,可以作为我们判断的重要依据。

    笔记本翻新机-检查表面易磨损部位

      笔记本翻新机-检查表面易磨损部位

      方法二:检查笔记本的固定螺丝,一般商家收购的旧笔记本电脑都会有一些问题,而商家要进行维修和翻新笔记本电脑时就必须对笔记本进行拆卸,这样势必在一些螺丝上会留下比较明显的划痕,所以如果在螺丝上发现了这种痕迹,该笔记本电脑一定有问题;

      笔记本翻新机-检查螺丝

      方法三:检查LCT显示屏的表面,观察上面否有细小的磨损痕迹,因为LCT表面很薄,无法进行打磨,所以上面的磨损一般是很难清除的。

      这是小编为大家分享辨别笔记本是否为翻新机的方法,看完后大家在买笔记本的时候就可以自己辨别一下是否为翻新机了。

  • 相关推荐:

  • 辨别笔记本是否为翻新机
  • 笔记本电池正确充电的方
  • shell脚本学习指南
  • 网页开发工具有哪些?
  • 服务器租用找景安
  • 戴尔全新解决方案将机器
  • 思科加入人工智能阵营发
  • 有道云笔记QQ授权登录失
  • 笔记本cpu温度多少正常
  • 笔记本电脑保养注意事项
  • 网站内容禁止违规转载,转载授权联系中国云计算网