前言

前天面试七牛的时候,问到了一些文本处理的东西,其中有一个问题是让我把nginx日志文件中的某一个域之后所有内容输出。当时第一个想到用cut来处理,cut的-f参数可以用来指定域,而且可以指定到末尾,速度很快速。当时选的awk来搞,调试了半天没弄出来,很是尴尬。菜鸟回来后查阅了下资料,重新整理下了以下几种方法来实现输出所有域的问题。

阅读全文 »

Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式——存储在名为metastore的数据库中。

系统环境

1
2
3
192.168.186.128 hadoop-master
192.168.186.129 hadoop-slave
MySQL安装在master机器上,hive服务器也安装在master上
阅读全文 »

最近在实习,需要用到Hadoop的环境,所以就在自己的机器上搭了一个hadoop集群。Hadoop有三种运行模式:单机模式、伪分布式模式、完全分布式模式,本次搭建的是完全分布式的集群。限于机器硬件性能,此次搭建一共只有两个节点。搭建的源码包全部是官网最新版本,把搭建的过程记录了下来,方便以后有需要进行查阅。

阅读全文 »

前言

很早之前就有搭建独立博客的想法,域名买了也有一阵子,但是一直没有用。加上平时用的为知笔记,记录比较随意,目的是方便自己查阅,也不觉得个人blog有多少必要。最近在弄Hadoop的时候需要查阅资料,无意间发现wuchong的博客,很喜欢这个界面,正好这几天比较空闲,就着手搭了一个博客。

本博客使用Hexo+GitCafe Pages+Next搭建,参考了网络上很多教程,也有比较完善的说明文档供查阅,搭建过程中遇到的很多问题都是依赖查阅文档和大神的博客来解决的。把搭建博客的过程写出来一是练习使用Markdown格式写作,同时希望能给需要的人带来帮助。

阅读全文 »