hadoop中的map-reduce是处理<key,value>这样的键值对,故指定<key,value>的分割符等参数可以分成三类:
map输出时分割符
分桶时的分隔符
reduce输出时的分割符
下面分别叙述:
1. map输出时分割符
参数:
stream.map.output.field.separator
作用:
指定map输出时的分割符
stream.num.map.output.key.fields
指定输出按照分隔符切割后,key所占有的列数
举例:
input数据:
2,2,c,c,c,c
参数配置:
-mapper "cat" # map 为分布式的cat命令
-reducer "" #reduce为空 /
-jobconf stream.map.output.field.separator=',' /
-jobconf stream.num.map.output.key.fields=2 /
即按照','逗号分隔后,去前2列作为key
output数据:
2,2 c,c,c,c #其中key为2,2 value为c,c,c,c
2. 分桶时的分隔符
map.output.key.field.separator
指定map输出<key,value>对之后,其中key内部的分割符
num.key.fields.for.partition
指定分桶时,按照分隔符切割后,用于分桶key所占的列数
举例:
map的output数据:
2,2 c,c,c,c
参数配置:
-jobconf map.output.key.field.separator=',' /
-jobconf num.key.fields.for.partition='1' /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /
output数据:
这样用于partition分桶的key就为:2
注意,这里分桶不应该用默认的HashPartitioner
3. reduce输出时的分割符
这个与map类似,分别用于reduce输出时分隔符以及key占有的列数
stream.reduce.output.field.separator
stream.num.reduce.output.key.fields
分享到:
相关推荐
hadoop调优参数列表.hadoop调优参数列表.hadoop调优参数列表.
hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化
Hadoop 三个配置文件的参数含义说明;Hadoop core-site.xml;hdfs-site.xml;mapred-site.xml
hadoop2.8.2 的四个配置参数文件,基出centos6.5安装的hadoop,四个配置文件分别是:hdfs-site.xml, mapred-site.xml, core-site.xml, yarn-site.xml,
Hadoop参数调优,各种参数修改优化,还是需要大量实验才能得到最合适的设置
hadoop调优参数列表
自定义分隔符读取源码,改编自LineRecordReader,主要处理格式复杂的日志
4.1.3 Hadoop配置参数格式;4.1.3 Hadoop配置参数格式;4.1.4 获得Hadoop集群全部配置信息;4.2 在Master节点上安装Hadoop;(1)解压缩hadoop-2.7.1.tar.gz安装包到/usr目录下 [root@master ~]# tar zxvf hadoop-2.7.1....
Hadoop企业优化常用的调优参数,资源相关参数:(1)在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)和(2)在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml);容错相关参数...
基于hadoop的条件随机场模型参数估计_v0.71
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
hadoop作业调优参数整理及原理,并且针对部分的原理和视图详细说明
“大数据技术原理与应用”课程实验报告 题目:实验六:熟悉Hive的基本操作 姓名:小猪猪 日期:2022/5/15 1、实验环境: ...1.创建一个内部表 stocks,字段分隔符为英文逗号,表结构如下所示: stocks 表结构:
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,...
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...
第4章 Hadoop文件参数配置.pdf
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
搭建hadoop集群之前,我们可以先搭建单台的hadoop,这里是其配置文件,版本号hadoop2.2.0
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...