Ubuntu 14 Hadoop 2.6 集群搭建
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
新建 hadoop 用户,配置 SSH 用于免密登录。
安装 Java 环境并配置环境变量,下载 Hadoop 并安装(解压即可用,注意不要下载 src)。
Hadoop 伪分布式配置,顺便配置 YARN。
测试伪分布式示例和 YARN 运行状态:YARN 是新的 MapReduce 分离出来的负责资源管理和任务调度,同时具有图形化界面能看到任务运行情况。
每次在 hadoop 下启动(关闭则 start 换成 stop):
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver
两个网页管理界面:
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS
- 如果是集群配置,只需要将伪分布式节点复制多份(避免重复 Java 环境配置等步骤,节约生命),重新配置 Master 和 Slave 的主机信息和网络连接并加上 SSH 免密认证,再统一更改 Hadoop 的配置文件(主要是加入 Master 和 Slave 信息)即可。
在 Python 业务代码上使用 MapReduce
因为 Hadoop 中 MapReduce 的主要工作就是在数据流的分发和收集上,所以具体的 Map 和 Reduce 的业务逻辑并不一定要用 Java,只要在数据流动的过程使用上 MapReduce 的数据流接口就行。好吧其实我就是想偷懒不想把写好的 Python 程序再写一遍 Java,并没有很懂其中的机制只是按照教程实现了在 Python 业务代码上使用 MapReduce 的特性,以后有时间再深入研究: