安装代码编译器
这里推荐使用IDEA,百度网盘下载链接具体解释及安装包:https://pan.baidu.com/s/1oQkc4bwTCwx3XKxu9GfB0w 提取码:i3ke
MAVEN环境安装
这里推荐使用MAVEN3.6.3.高版本可能会出现一些安全问题,如只能使用https百度网盘链接具体安装包:https://pan.baidu.com/s/10NbGLU308S6_sbzA3LmWwg 提取码:ji7u 下载完成后,解压setting.xml文件中添加一些配置,将本地仓库设置一下:
<localRepository>D:\mvn\apache-maven-3.6.3\repository</localRepository>
将阿里云镜像添加到配置中:
<mirror> <id>nexus-aliyun</id> <mirrorOf>central</mirrorOf> <name>nexus-aliyun</name> <url>http://maven.aliyun.com/nexus/content/groups/public</url> </mirror>
然后配置环境变量MAVEN_HOME,右键 选择计算机 然后点击属性 点击高级系统设置"环境变量",需要配置以下系统变量来设置环境变量: 新系统变量 MAVEN_HOME,变量值:D:\Maven\apache-maven-3.6.3;
然后编辑系统变量 Path,添加变量值:%MAVEN_HOME%\bin
Windows需要本地配置Hadoop,mac不需要
1.重新解压一份Hadoop-3.1.3安装包,然后把包放在里面bin和etc目录copy到自己新建windows的Hadoop文件夹下; 2.修改etc/hadoop中的hadoop-env.cmd,JAVA_HOME需要修改为绝对路径; 1.如果本地JAVA_HOME:在C:\Program Files…,需要改为set JAVA_HOME=C:\PROGRA~1\JAVA\jdk1.8.0_131 2.在网上找对应的hadoop.dll和winutils.exe放在hadoop的bin目录下 3.配置环境变量HADOOP_HOME,还有PATH,此时检查,登录cmd输入命令:
hadoop version
4.如果你还会报错,把它拿走hadoop.dll放在C:\Windows\System32中
打开IDEA,开始MR编程
新建一个maven项目将在设置中进行maven将路径改为本地路径maven 然后编辑pom.xml下载所需文件hadoop包
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>org.examplespan class="token punctuation"></groupId>
<artifactId>MapReduce</artifactId>
<version>1.0</version>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<hadoop.version>3.1.3</hadoop.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.1.3</version>
</dependency>
</dependencies>
</project>
MR编程的核心要素
Mapper ==>org.apache.hadoop.mapreduce.Mapper run set up 循环调用map cleanup Reducer ==>org.apache.hadoop.mapreduce.Reducer run set up 循环调用reduce cleanup
Driver ==>连接Mapper和Reducer,提交成为job