soword科技言
永久公益免费API接口
提供永久免费的API接口,查看更多API接口,如果您有其他免费API资源,请联系我们,造福人类。
提供商务开发:小程序,系统,APP
定制开发,免费评估,免费咨询,价格便宜,售后保障,前往开发服务中心联系开发客服中心
最受欢迎的30个Hadoop管理员面试问题

您在寻找Hadoop管理员面试问题吗?那么您来对地方了。在这里,我将讨论前30名最常见的Hadoop管理员面试问题及答案。在这里花几分钟时间,将这些Hadoop Admin面试问题与答案一起整理。我已从各种来源收集了这些问题,并在此为您总结。

你好,欢迎!

在这个博客中,我要告诉你-

  1. 最受欢迎的30个Hadoop管理员面试常见问题解答

因此,不要浪费您的时间,让我们开始吧,

前30个最常见的Hadoop管理员面试问题 及答案-

问题1- 哪些操作系统支持生产Hadoop部署?

答-主要支持的操作系统是Linux。但是,借助某些其他软件,可以在Windows上部署Hadoop。

问题2-名称 节点的作用是什么?

答:namenode是Hadoop集群的“大脑”,负责根据复制策略管理系统上的分发块。namenode还根据客户端请求提供数据的特定地址。

问题3-当客户端尝试读取数据文件时,在namenode上会发生什么?

答案-namenode将在编辑文件中查找有关文件的信息,然后从文件系统内存快照中检索剩余信息。由于名称节点需要支持大量客户端,因此主要名称节点将仅向该数据位置发送信息。数据节点本身负责检索。

问题4- Hadoop集群(主要和次要名称节点以及数据节点)的硬件要求是什么?

答案-对数据节点没有要求。但是,名称节点需要指定数量的RAM才能将文件系统映像存储在内存中。根据主要名称节点和次要名称节点的设计,整个文件系统信息将存储在内存中。因此,两个名称节点都需要有足够的内存来包含整个文件系统映像。

问题5-在 什么模式下可以运行Hadoop代码?

答:您可以以独立模式,伪分布式模式或完全分布式模式部署Hadoop。Hadoop的设计是部署在多节点集群上。但是,出于测试目的,我们可以将其部署在单个计算机上并作为单个进程进行部署。

问题6-如何将一个Hadoop管理员部署的各个组件的Hadoop生产?

Answer-在主节点上部署名称节点和作业跟踪器,并在多个从属节点上部署数据节点和任务跟踪器。系统上仅需要一个名称节点和作业跟踪器。数据节点的数量取决于可用的硬件。

问题7-部署辅助名称节点的最佳实践是什么?

答-在单独的独立计算机上部署辅助名称节点。辅助名称节点需要部署在单独的计算机上。它不会以这种方式干扰主名称节点的操作。次要名称节点必须具有与主要名称节点相同的内存要求。 

问题8-是否有部署Hadoop的标准程序?

答案-不,各种分布之间存在一些差异。但是,它们都要求在计算机上安装Hadoop jar。所有Hadoop发行版都有一些共同的要求,但具体步骤对于不同的供应商将有所不同。由于它们都有一定程度的专有软件。

问题9-次要名称节点的作用是什么?

Answer-辅助名称节点执行CPU密集型操作,将编辑日志和当前文件系统快照组合在一起。由于具有大量占用CPU的操作以及对元数据备份的其他要求,因此将辅助名称节点作为一个进程进行了分离。

问题10-不运行辅助名称节点有哪些副作用?

答案-由于编辑日志会越来越大,因此群集性能会随着时间下降。如果辅助名称节点根本没有运行,则编辑日志将显着增长,并且将降低系统速度。同样,系统将进入安全模式并持续较长时间。由于名称节点需要组合编辑日志和当前文件系统检查点图像。

问题11-如果数据节点在几分钟内失去网络连接会怎样?

答案:namenode将检测到数据节点无响应,并将开始从其余副本中复制数据。名称节点维护复制因子。名称节点监视所有数据节点的状态,并跟踪该节点上有哪些块。数据节点不可用时,将触发从现有副本中复制数据。但是,如果数据节点恢复,则会删除过度复制的数据。

注意:数据可能会从原始数据节点中删除。

问题12- 如果其中一个数据节点的CPU速度慢得多怎么办?

答案-任务执行速度将与最慢的工人一样快。但是,如果启用了推测性执行,则最慢的工作程序将不会对Hadoop专为与商品硬件协同工作而产生如此大的影响。投机的执行有助于抵消缓慢的工人。将创建同一任务的多个实例。并且作业跟踪程序将考虑第一个结果,并且将杀死该任务的第二个实例。

问题13-什么是投机执行?

答-如果启用推测执行,作业跟踪器将在多个节点上发布同一任务的多个实例。并将采取先完成的任务的结果。该任务的其他实例将被杀死。

我们可以使用推测性执行来抵消集群中慢工的影响。作业跟踪器将创建同一任务的多个实例,并获取第一个成功任务的结果。其余任务将被丢弃。

问题14- 您需要多少个机架来创建Hadoop集群,以确保该集群可靠运行?

回答-为了确保可靠的操作,必须至少配置2个机架,并配置机架位置。Hadoop具有内置的机架识别机制。这样可以根据配置在不同机架之间分配数据。

问题15-名称节点是否有特殊要求?

回答-是的,namenode包含有关系统中所有文件的信息,并且需要特别可靠。名称节点是单点故障。它需要特别可靠,并可以在多个位置复制元数据。请注意,社区正在努力解决名称节点的单点故障问题。

问题16-如果文件大小为128M,并且复制因子设置为3,那么在群集上可以找到与该文件相对应的块数(假设使用默认的Apache和Cloudera配置)?

回答-根据配置设置,文件将根据默认块大小64M分为多个块。128M / 64M = 2。每个块根据复制因子设置(默认值为3)进行复制。2 * 3 = 6。

问题17-什么是分布式副本(distcp)?

Answer- Distcp是Hadoop实用程序,用于启动MapReduce作业以复制数据。主要用途是用于复制大量数据。Hadoop环境中的主要挑战之一是跨多个集群复制数据。Distcp将允许利用多个数据节点进行数据的并行复制。

问题18-复制因子是什么?

答案-复制因子控制每个单个块可以复制多少次。数据根据复制因子在Hadoop集群中复制。高复制因子可确保发生故障时的数据可用性。

问题19-哪些守护程序在主节点上运行?

Answer- NameNode,Secondary NameNode和JobTracker。

Hadoop由五个独立的守护程序组成,每个守护程序都在自己的JVM中运行。NameNode,Secondary NameNode和JobTracker在主节点上运行。DataNode和TaskTracker在每个从节点上运行。

问题20-什么是机架意识?

Answer-机架感知是名称节点根据机架定义决定如何放置块的方式。Hadoop将尝试最小化同一机架内数据节点之间的网络流量。并且仅在需要时才与远程机架联系。由于机架感知,名称节点能够控制此操作

问题21-作业跟踪程序在Hadoop集群中的作用是什么? 

答案-作业跟踪器负责在从属节点上调度任务,收集结果,重试失败的任务。作业跟踪器是map-reduce执行的主要组件。它控制着将工作划分为较小的任务,将任务提交给各个任务跟踪器,跟踪任务的进度并将结果报告回调用代码。

问题22- Hadoop集群如何容忍数据节点故障?

答:由于Hadoop的设计要在商用硬件上运行。因此,您可以预期数据节点故障。Namenode跟踪所有可用数据节点,并主动维护所有数据上的复制因子。

名称节点主动跟踪所有数据节点的状态。并且在数据节点无响应时立即采取行动。namenode是HDFS的中心“大脑”,当它检测到断开连接时就开始复制数据。

问题23-恢复名称节点的过程是什么?

答:我们可以通过两种方式恢复名称节点。一种是从备份元数据启动一个新的名称节点。第二是将辅助名称节点提升为主要名称节点。 

名称节点恢复过程对于确保数据的可靠性非常重要。您可以通过使用备份数据启动新的名称节点来完成。或通过将辅助名称节点提升为主要名称节点。

问题 24- Web-UI显示一半的数据节点处于退役模式。那是什么意思?从网络中删除那些节点是否安全?

答案-这意味着名称节点试图通过将副本移动到其余数据节点来从这些数据节点检索数据。如果管理员在退役完成之前删除了这些数据节点,则可能会丢失数据。 

由于复制策略的缘故,由于在完成退役过程之前整体删除了数据节点,因此可能会丢失一些数据。退役是指名称节点试图通过将副本移动到其余数据节点来从数据节点检索数据。

问题25-将新的数据节点添加到Hadoop集群后,Hadoop管理员必须做什么?

答案-由于新节点上将没有任何数据。管理员需要启动平衡器以在所有节点之间平均重新分配数据。

Hadoop集群将自动检测新的数据节点。但是,为了优化集群性能,重要的是开始重新平衡以在数据节点之间平均分配数据。

问题26-如果Hadoop管理员需要进行更改,那么他需要更改哪个配置文件?

答案-Hadoop群集中的每个节点都有自己的配置文件,需要在每个文件中进行更改。原因之一是每个节点的配置可能不同。

问题27- Map Reduce作业在刚刚重新启动的群集上失败。他们在重新启动之前工作。有什么事吗

答案-群集处于安全模式。管理员需要等待名称节点退出安全模式,然后才能重新启动作业 

当群集上没有二级名称节点并且很长时间没有重新启动群集时,这是Hadoop管理员经常犯的错误。名称节点将进入安全模式,并将编辑日志和当前文件系统时间戳组合在一起

问题28- Map Reduce作业花费的时间太长。 您可以采取什么措施来提高群集的性能?

答案-Hadoop集群上性能问题的最常见原因之一是任务分配不均。任务数必须与集群上的可用插槽数相匹配

Hadoop不是硬件感知系统。开发人员和管理员有责任确保资源供需匹配。

问题29-您需要多久重新格式化一次名称节点?

答案-从不。名称节点一开始只需要格式化一次。重新格式化namenode会导致整个数据丢失

namenode是唯一只需格式化一次的系统。它将为文件系统元数据创建目录结构,并为整个文件系统创建名称空间ID。

问题30-提高复制级别后,我仍然看到数据复制不足。有什么事吗

回答-由于大量数据,数据复制需要时间。Hadoop管理员应留出足够的时间进行数据复制。根据数据大小,数据复制将花费一些时间。Hadoop集群仍需要复制数据,并且如果数据大小足够大,则复制将花费几分钟到几小时并不罕见。

我希望您已经阅读并理解了所有Hadoop管理员面试问题。祝您事业蒸蒸日上。



2023-03-22 10:04:19

新人小程序+APP定制199元起


发放福利,助力中小企业发展,真正在互联网中受益

点击询问定制

广告服务展示