yarn队列提交spark任务权限控制

CapacityScheduler 模型介绍 Capacity Scheduler是一个hadoop支持的可插拔的资源调度器, 它允许多租户安全的共享集群资源, 它们的applications在容量限制之下, 可以及时的分配资源。使用操作友好的方式运行hadoop应用, 同时最大化吞吐能力和集群利用率。 Capacity Scheduler提供的核心理念就是Queues（队列）, 这...

2018/08/07 数据运维

spark算子

Spark算子 Map 对原数据进行处理,类似于遍历操作,转换成MappedRDD,原分区不变. flatMap 将原来的RDD中的每一个元素通过函数转换成新的元素,将RDD的每个集合中的元素合并成一个集合.比如一个元素里面多个list,通过这个函数都合并成一个大的list,最经典的就是wordcount中将每一行元素进行分词以后成为,通过flapMap变成一个个的单词,line...

2018/08/07 数据分析

spark简介

介绍快如闪电的集群计算快速通用的大规模数据处理技术有DAG(有向无环图)执行引擎速度比MapReduce在内存上快一百倍磁盘上快10倍可以使用多种语言编写 java Scala Python R 80多种高级操作用于并行app 版本选择 spark1.6.1 三种部署模式 standalone 在hdf...

2018/08/07 数据分析

java8新特性

新特性我们主要讨论以下几个： Lambda 表达式方法引用函数式接口默认方法 Stream Optional 类 Nashorn, JavaScript 引擎新的日期时间 API Base64 Lambda 表达式也可称为闭包允许把函数作为一个方法的参数可以使代码变的更加简洁紧凑格式： (parameters) ->...

2018/08/07 后端

hadoop配置文件

core-site.xml hdfs核心文件 name default description hadoop.common.configuration.version 0.23.0 此配置文件的版本。 hadoop.tmp.dir...

2018/08/07 数据运维

hadoop的优化

对应用程序进行调优由于mapreduce是迭代逐行解析数据文件的, 怎样在迭代的情况下, 编写高效率的应用程序, 是一种优化思路。避免输入大量小文件。大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务), 而每个Map任务实际工作量又非常小, 系统要花更多的时间来将这些Map任务的输出进行整合。如果将大量的小文件进行预处理合...

2018/08/07 数据运维

datax的使用

介绍 DataX 是阿⾥里里巴巴集团内被⼴广泛使⽤用的离线数据同步⼯工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间⾼高效的数据同步功能。系统需求 Linux JDK(1.6以上，推荐1.6) Python(推荐Python2.6.X) Apache M...

2018/08/07 数据运维

hive安装

版本: hive-0.13.1-cdh5.3.6 介绍: 数据仓库平台将hadoop上的数据操作通SQL结合类SQL语言HiveSQL 转换为相应的Mapreduce代码进行执行用户接口(shell客户端 JDBC ODBC web接口) 元数据库(定义在hive中的表结构信息默认derby 一般mysql) 解析器(HQL=>mapreduce) 数据仓库(hdfs组...

2018/08/03 数据运维

hive SQL

hive表内部表: hive进行管理（删除表即删除数据）外部表: 用户进行管理（删除表不删除数据）创建表的三种方式: 1.create [external] table [if not exists] [db_name.]table_name (col1_name col1_type [comment col1_comment],...) [comment tabl...

2018/08/03 数据分析

hadoop搭建

版本信息 hadoop 2.5.0 集群规划 PC01 PC02 PC03 NameNode √ √ ZKFC √ √ Resou...

2018/08/03 数据运维

yarn队列提交spark任务权限控制

spark算子

spark简介

java8新特性

hadoop配置文件

hadoop的优化

datax的使用

hive安装

hive SQL

hadoop搭建

热门标签