百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Linux环境Docker容器安装与使用(六)——安装Hadoop大数据集群

gudong366 2025-07-21 14:34 3 浏览

简介:Hadoop是一种分析和处理大数据的软件平台,是Appach开源软件的一个架构,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop使用主/从(Master/Slave)架构,主要有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker五种角色。其中NameNode,secondary NameNode,JobTracker三种角色运行在Master节点上,其余的两种角色DataNode和TaskTracker运行在Slave节点上。

在集群中每个从服务器都运行一个DataNode后台程序,后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时,由NameNode告诉客户端去哪个DataNode进行具体的读写操作。而NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。另外,Secondary NameNode是一个用来监控HDFS状态的辅助后台程序,如果NameNode发生问题,可以使用Secondary NameNode作为备用的NameNode。JobTracker后台程序用来连接应用程序与Hadoop,用户应用提交到集群后,由JobTracker决定哪个文件处理哪个task执行,一旦某个task失败,JobTracker会自动开启这个task。而位于从节点的TaskTracker负责存储数据的DataNode相结合,负责各自的Task。

本文将介绍在容器Docker中安装和部署Hadoop大数据集群的过程,详细内容请参考下文。

一、登陆Linux系统

二、查看Docker运行状态

执行指令# systemctl status docker查看Docker的运行状态。如下图

三、使用docker部署Hadoop

1、抽取Hadoop镜像

执行指令# docker pull
kiwenlau/hadoop-master:0.1.0。如下图

2、下载Hadoop代码

执行指令# git clone
https://github.com/kiwenlau/hadoop-cluster-docker下载代码。如下图

3、创建Hadoop网桥

执行指令# docker network create hadoop。如下图

4、启动Hadoop容器

执行指令# sh start-container.sh。如下图

备注:一共开启了3个容器,1个master, 2个slave。

5、开启Hadoop服务

(1)、查看master的root用户家目录的文件

备注:start-hadoop.sh是开启hadoop的shell脚本,而run-wordcount.sh是运行wordcount的shell脚本,可以测试镜像是否正常工作。

(2)、执行指令# sh start-hadoop.sh开启Hadoop服务。如下图

备注:这一步会ssh连接到每一个节点,确保ssh信任是正常的。

6、开启Wordcount服务

执行指令# sh run-wordcount.sh开启Wordcount服务。如下图

四、Hadoop常见配置文件

1、core-site.xml

执行指令# cd
/usr/local/hadoop/etc/hadoop。如下图

2、hdfs-site.xml

备注:这里是配置一个Master节点和两个Slave节点。所以dfs.replication配置为2。dfs.namenode.name.dir和dfs.datanode.data.dir分别配置为NameNode和DataNode的目录路径。

3、mapred-site.xml

备注:这里指定运行mapreduce的环境是yarn。

4、hadoop-env.sh

备注:这里必须要指定java的路径。否则启动Hadoop时,提示找不到变量JAVA_HOME。

五、Hadoop访问测试

1、访问Hadoop管理页面

在浏览器输入以下地址:

http://服务器IP地址:8088/cluster/nodes

访问界面如下:

2、访问HDFS管理页面

在浏览器输入以下地址:

http://服务器IP地址:50070/

访问界面如下:

3、访问HDFS内容页面

在浏览器输入以下地址:

http://服务器IP地址:50070/explorer.html#/

备注:由于默认开启了安全默认,默认是没有权限查看文件的。需要关闭安全模式才行。

4、关闭安全访问模式

(1)、进入hadoop-master容器,执行指令

# hadoop dfsadmin -safemode leave

(2)、授权tmp文件权限,执行指令

# hdfs dfs -chmod -R 755 /tmp

5、重新访问HDFS内容页面

访问tmp目录。如下图

访问user目录。如下图

备注:HDFS存放目录为:/root/hdfs。如果需要做持久化,将此目录开放出来。

相关推荐

由浅入深学shell,70页shell脚本编程入门,满满干货建议收藏

不会Linux的程序员不是好程序员,不会shell编程就不能说自己会Linux。shell作为Unix第一个脚本语言,结合了延展性和高效的优点,保持独有的编程特色,并不断地优化,使得它能与其他脚本语言...

小白7天掌握Shell编程:脚本的创建和执行

一、课前声明1、本分享仅做学习交流,请自觉遵守法律法规!2、搜索:Kali与编程,学习更多网络攻防干货!二、知识点详解Shell脚本的格式要求:脚本要以!#/bin/bash开头,其中bash可以替换...

飞牛fnNAS搭建Web版Linux系统(飞牛网改版升级说明)

飞牛NAS本身就是Linux内核(Debian发行版),那为何还要安装一个Linux呢?因为飞牛的Linux是特殊版本,并不能运行PC端的带UI的程序,比如我需要登录微信,需要使用wps打字……,这是...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

Apple尝试使用轻量级Linux虚拟机实现容器化

Apple于本周一发布了一个开源的容器化框架,用于在Mac上创建和运行Linux容器镜像。软件容器将应用程序及其依赖项组合成一个单元,在主机上运行于隔离环境中。由于它们基于符合OCI标准...

Docker 安全与权限控制:别让你的容器变成“漏洞盒子”

在享受容器带来的轻量与灵活的同时,我们也必须面对一个现实问题:安全隐患。容器并不是天然安全,错误配置甚至可能让攻击者“越狱”入侵主机!本篇将带你从多个层面强化Docker的安全防护,构建真正可放心...

网络安全必备!Linux firewalld 防火墙原理 + 配置实战(放行http)

5.1了解firewall防火墙基础概念与原理5.1.1Linux防火墙概述在网络安全领域,防火墙是保障网络安全的关键屏障,Linux系统中的firewall防火墙(firewalld服...

从零开始搭建 Linux PXE 无盘启动服务器

在企业环境或实验室中,PXE(PrebootExecutionEnvironment,无盘启动)被广泛用于大规模批量部署操作系统。通过PXE,无需U盘或CD,就能远程启动和安装Linux...

[250417] Fedora 42 正式发布,搭载 Linux 6.14 内核和 GNOME 48 桌面环境

Fedora42正式发布FedoraLinux42现已正式发布!此版本基于最新的Linux内核6.14构建,带来了众多激动人心的新特性和改进,旨在提供更现代化、更强大、更易用的Li...

Linux Kernel学习003——内核源码

Linux学习笔记:老版本内核的坑,新工具救场,代码门道藏着啥秘密.最近想学Linux内核,网上查资料发现现在的稳定版本都已经到5.x了,但我跟着教程选的是2.6.34。官网下载链接卡着老卡,后来用清...

Linux:实现Hadoop集群Master无密码登录

以下所介绍的安装方式都是在线安装方式,如果你需要连网请参考:Linux:宿主机通过桥接方式连接的VMware内部Linux14.04虚拟机(静态IP)实现上网方案环境:OS:LinuxUbuntu1...

除了Win10,微软还发布了一套“专业版Linux”系统

IT之家讯9月21消息,不知道大家是否还记得,微软CEO纳德拉曾在去年的一次活动中公开宣称“微软爱Linux”,其实那个时候的微软就已经在服务器方面拥抱Linux了。而最近,除了最新Windows1...

Linux系统匿名上网小技巧(linux匿名文件)

Tails可以做什么+优点Tails所有数据连接通过Tor网络传输,可以为个人用户提供最好的匿名性和安全性,并且它是一个Linux系统,不会感染Windows系统的病毒,它可以存储在闪存盘上运行。-...

Linux环境中DeepSeek AI大模型使用与管理之七:安装Cherry Studio

简介:在Linux系统中成功通过Ollama部署DeepSeek-R1大模型后,用户通常需要一个直观且易于操作的客户端来访问和交互。为了满足这一需求,本文将详细介绍如何在Linux环境中安装和配置Ch...

Linux系统部署Go编程环境(一)使用Go语言编写简单web服务器

摘要:Go语言是一个开源的编程语言,Go语言被称为“互联网时代的C语言”。Go语言的风格类似于C语言。其语法在C语言的基础上进行了大幅的简化,去掉了不需要的表达式括号,循环也只有for一种表示...