重度拖延症患者开始写月初的游记,想想年前东北的游记还没写,还要敲代码,更不要问我论文写的如何了,正在努力写……

前言

古镇行是去年十一月的时候提出来的,列上半年草案的时候安排在了三月。开学过来已经很晚了,起初犹豫着要不要发,成团却是意料之外了。再到后来江南花事线悠游花鸟线的迅速爆团更是让我们有些懵,有些搞不清楚状况,为何突然一下子这么多人来报,许是最近的线路太小清新了吧。四月还是应该发些户外线,爬爬山之类的,天气转暖,滑翔也可以提上日程了。

三月初,春江水暖,预想中的小雨没有下,出发时反而有些入夏的感觉。烟雨才更江南,不过体验到了也一样。出发时,对于这次几个风格各异的古镇还是有些目的和期待的,一次游这么多镇子,对我来说也不多见。归程想了想,虽然我不懂建筑、文化,但酒肆对饮夜谈、肆意的放空都经历了,关键是还认识了很多新妹子,轻松愉悦,满载而归!

阅读全文 »

前言

归程,车上的总结有些心不在焉,逻辑混乱,总觉有些模糊的东西没有理清,致使昨夜也有些失神。这种感觉上次带旅协小朋友们去吴越时就有,这次更强烈些,有些观感与理想中的样子相去甚远。虽然没有交流,这次老白应也有相似的感觉,所以当晚就看到了他的随笔多余的话

阅读全文 »

花鸟岛

马上有个三天的小长假,给大家推荐还不错的小岛——花鸟岛。岛不大,却比枸杞、东极要安静很多,游客也要少很多,交通和食住方面要稍差点,不过还好。岛上的接待能力有限,去花鸟的船次也有限,所以只要能买到票吃住没问题的,如果没提前预定可以带个帐篷去宿营,这个天气也不冷。

去花鸟岛三天时间较为合适,第一天下午到岛上,环个岛去灯塔逛逛看日落,第二天待上个一整天,第三天早上返程。两天的话稍微有点赶,纯游玩时间是够了。

去花鸟看看海水,看看“远东第一大灯塔”,吃吃海鲜,开渔之后看渔火。再者不知现在是否还有蓝色眼泪,七八月持续了一个月。海上日出日落星星就看天气了,天气好都会有的。

阅读全文 »

前言

最近在利用Spark streamingKafka构建一个实时的数据分析系统,对图书阅读数据进行分析,做实时推荐。Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。Apache Kafka是一个分布式的消息发布-订阅系统,Kafka可以作为流计算系统的数据源,本例中Spark Streaming将从Kafka中消费数据。

阅读全文 »

前言
最近用到redis,所以就学习了下redis的相关东西,从数据类型、主从原理、持久化方式等方面着手看了不少资料,也进行了一些实践操作。redis的配置都比较简单,网络上相关资料比较多,把实践的过程记录下来以备查阅。

系统环境

1
2
hadoop-master	192.168.186.128   #master节点
hadoop-slave 192.168.186.129 #slave节点
1
2
3
[root@hadoop-slave ~]# cat /etc/issue
CentOS release 6.4 (Final)
Kernel \r on an \m
阅读全文 »

前阵子公司需要,让我搭个Git服务器,把之前用的SVN上代码迁移到git上去,所以就在阿里云主机上搭了一个,记录了下安装过程,留存文档以备查阅。本篇本章只涉及搭建部分的操作,更多git的使用可以参考文档

系统环境

主机环境

1
hadoop-slave    192.168.186.129

系统版本信息

1
2
[root@hadoop-slave ~]# cat /etc/redhat-release 
CentOS release 6.4 (Final)

阅读全文 »

ELK简介

ELKStack即Elasticsearch + Logstash + Kibana。日志监控和分析在保障业务稳定运行时,起到了很重要的作用。比如对nginx日志的监控分析,nginx是有日志文件的,它的每个请求的状态等都有日志文件进行记录,所以可以通过读取日志文件来分析;redis的list结构正好可以作为队列使用,用来存储logstash传输的日志数据。然后elasticsearch就可以进行分析和查询了。

本文搭建的的是一个分布式的日志收集和分析系统。logstash有agent和indexer两个角色。对于agent角色,放在单独的web机器上面,然后这个agent不断地读取nginx的日志文件,每当它读到新的日志信息以后,就将日志传送到网络上的一台redis队列上。对于队列上的这些未处理的日志,有不同的几台logstash indexer进行接收和分析。分析之后存储到elasticsearch进行搜索分析。再由统一的kibana进行日志web界面的展示[3]。

目前我用两台机器做测试,hadoop-master安装nginx和logstash agent(tar源码包安装),hadoop-slave机器安装安装logstash agent、elasticsearch、redis、nginx。
同时分析两台机器的nginx日志,具体配置可参见说明文档。以下记录了ELK+redis来收集和分析日志的配置过程,参考了官方文档和前人的文章。

阅读全文 »

Saltstack简介

Saltstack是继 Puppet、Chef 之后新出现的服务器基础架构集中化管理平台,具备配置管理、远程执行、监控等功能。SaltStack基于Python语言实现,结合轻量级消息队列(ZeroMQ)与Python第三方模块(Pyzmq、PyCrypto、Pyjinjia2、python-msgpack和PyYAML等)构建。此外,SaltStack 为开源软件,其源代码托管于GitHub上。用户可以参考其官方文档进行安装和使用。目前,SaltStack以其简单方便的部署、强大的功能和扩展性、多平台支持以及安全可靠的主从连接而受到越来越多的关注。

阅读全文 »

前言

前天面试七牛的时候,问到了一些文本处理的东西,其中有一个问题是让我把nginx日志文件中的某一个域之后所有内容输出。当时第一个想到用cut来处理,cut的-f参数可以用来指定域,而且可以指定到末尾,速度很快速。当时选的awk来搞,调试了半天没弄出来,很是尴尬。菜鸟回来后查阅了下资料,重新整理下了以下几种方法来实现输出所有域的问题。

阅读全文 »

Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式——存储在名为metastore的数据库中。

系统环境

1
2
3
192.168.186.128 hadoop-master
192.168.186.129 hadoop-slave
MySQL安装在master机器上,hive服务器也安装在master上
阅读全文 »