hadoop CDH搭建
软件版本 hadoop-2.5.0-cdh5.3.6 centos6.5 64-bit 伪分布式环境搭建: 创建用户(hadoop) 添加用户 useradd hadoop 修改密码 passwd hadoop 赋予sudo权限 chmod u+w /etc/sudo...
软件版本 hadoop-2.5.0-cdh5.3.6 centos6.5 64-bit 伪分布式环境搭建: 创建用户(hadoop) 添加用户 useradd hadoop 修改密码 passwd hadoop 赋予sudo权限 chmod u+w /etc/sudo...
介绍 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 ElasticSearch是一个非常好用的实时分布式搜索和...
介绍 由Scala和Java编写的一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 安装kafka包 将kafka_2.9.2-0.8.1.tgz拷贝到sparkproject1的/usr/local目录下。 对kafka_2.9.2-0.8.1.tgz进行解压缩 tar -zxvf kafka_2....
摘要 CarbonData有自己的解析器,除了Spark的SQL解析器之外,还可以解析和处理与CarbonData表处理相关的某些命令。 数据类型 参考地址: http://carbondata.apache.org/supported-data-types-in-carbondata.html 数字类型 SMALLINT INT/INTEGER BIGINT D...
摘要 GitLab 是一个用于仓库管理系统的开源项目,使用Git作为代码管理工具,并在此基础上搭建起来的web服务。 官方文档 https://about.gitlab.com/installation/ centos6 安装 依赖 yum install -y curl policycoreutils-python openssh-server cronie lokkit -s...
依赖 yum install -y git gitweb spawn-fcgi fcgi-devel fcgi 安装fcgiwrap https://codeload.github.com/gnosek/fcgiwrap/legacy.tar.gz/master cd fcgiwrap autoreconf -i Configure Make make install 检查以下...
摘要 修改centos的源 首先备份/etc/yum.repos.d/CentOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 进入yum源配置文件所在文件夹 cd /etc/yum.repos.d/ 下载163或者阿里云的yum源配置文件,放入...
介绍 Apache Kylin 是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc.开发并贡献至开源社区。 依赖 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 安装 解压 tar -zxvf apache-kylin-1....
介绍 Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。 和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。 这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。 在此基础上,Redis支持各种不同方式的排序。...
介绍 Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。 数据序列化/反序列化(data serialization/deserialization) 支持两种序列化编码方式:二进制编码和JSON编码。 使用二进制编码会高效序列化,并...