您在寻找Hadoop管理员面试问题吗?那么您来对地方了。在这里,我将讨论前30名最常见的Hadoop管理员面试问题及答案。在这里花几分钟时间,将这些Hadoop Admin面试问题与答案一起整理。我已从各种来源收集了这些问题,并在此为您总结。
你好,欢迎!
在这个博客中,我要告诉你-
最受欢迎的30个Hadoop管理员面试常见问题解答
因此,不要浪费您的时间,让我们开始吧,
答-主要支持的操作系统是Linux。但是,借助某些其他软件,可以在Windows上部署Hadoop。
问题2-名称 节点的作用是什么?
答:namenode是Hadoop集群的“大脑”,负责根据复制策略管理系统上的分发块。namenode还根据客户端请求提供数据的特定地址。
答案-namenode将在编辑文件中查找有关文件的信息,然后从文件系统内存快照中检索剩余信息。由于名称节点需要支持大量客户端,因此主要名称节点将仅向该数据位置发送信息。数据节点本身负责检索。
答案-对数据节点没有要求。但是,名称节点需要指定数量的RAM才能将文件系统映像存储在内存中。根据主要名称节点和次要名称节点的设计,整个文件系统信息将存储在内存中。因此,两个名称节点都需要有足够的内存来包含整个文件系统映像。
答:您可以以独立模式,伪分布式模式或完全分布式模式部署Hadoop。Hadoop的设计是部署在多节点集群上。但是,出于测试目的,我们可以将其部署在单个计算机上并作为单个进程进行部署。
Answer-在主节点上部署名称节点和作业跟踪器,并在多个从属节点上部署数据节点和任务跟踪器。系统上仅需要一个名称节点和作业跟踪器。数据节点的数量取决于可用的硬件。
答-在单独的独立计算机上部署辅助名称节点。辅助名称节点需要部署在单独的计算机上。它不会以这种方式干扰主名称节点的操作。次要名称节点必须具有与主要名称节点相同的内存要求。
答案-不,各种分布之间存在一些差异。但是,它们都要求在计算机上安装Hadoop jar。所有Hadoop发行版都有一些共同的要求,但具体步骤对于不同的供应商将有所不同。由于它们都有一定程度的专有软件。
Answer-辅助名称节点执行CPU密集型操作,将编辑日志和当前文件系统快照组合在一起。由于具有大量占用CPU的操作以及对元数据备份的其他要求,因此将辅助名称节点作为一个进程进行了分离。
答案-由于编辑日志会越来越大,因此群集性能会随着时间下降。如果辅助名称节点根本没有运行,则编辑日志将显着增长,并且将降低系统速度。同样,系统将进入安全模式并持续较长时间。由于名称节点需要组合编辑日志和当前文件系统检查点图像。
答案:namenode将检测到数据节点无响应,并将开始从其余副本中复制数据。名称节点维护复制因子。名称节点监视所有数据节点的状态,并跟踪该节点上有哪些块。数据节点不可用时,将触发从现有副本中复制数据。但是,如果数据节点恢复,则会删除过度复制的数据。
注意:数据可能会从原始数据节点中删除。
答案-任务执行速度将与最慢的工人一样快。但是,如果启用了推测性执行,则最慢的工作程序将不会对Hadoop专为与商品硬件协同工作而产生如此大的影响。投机的执行有助于抵消缓慢的工人。将创建同一任务的多个实例。并且作业跟踪程序将考虑第一个结果,并且将杀死该任务的第二个实例。
答-如果启用推测执行,作业跟踪器将在多个节点上发布同一任务的多个实例。并将采取先完成的任务的结果。该任务的其他实例将被杀死。
我们可以使用推测性执行来抵消集群中慢工的影响。作业跟踪器将创建同一任务的多个实例,并获取第一个成功任务的结果。其余任务将被丢弃。
回答-为了确保可靠的操作,必须至少配置2个机架,并配置机架位置。Hadoop具有内置的机架识别机制。这样可以根据配置在不同机架之间分配数据。
回答-是的,namenode包含有关系统中所有文件的信息,并且需要特别可靠。名称节点是单点故障。它需要特别可靠,并可以在多个位置复制元数据。请注意,社区正在努力解决名称节点的单点故障问题。
回答-根据配置设置,文件将根据默认块大小64M分为多个块。128M / 64M = 2。每个块根据复制因子设置(默认值为3)进行复制。2 * 3 = 6。
Answer- Distcp是Hadoop实用程序,用于启动MapReduce作业以复制数据。主要用途是用于复制大量数据。Hadoop环境中的主要挑战之一是跨多个集群复制数据。Distcp将允许利用多个数据节点进行数据的并行复制。
答案-复制因子控制每个单个块可以复制多少次。数据根据复制因子在Hadoop集群中复制。高复制因子可确保发生故障时的数据可用性。
Answer- NameNode,Secondary NameNode和JobTracker。
Hadoop由五个独立的守护程序组成,每个守护程序都在自己的JVM中运行。NameNode,Secondary NameNode和JobTracker在主节点上运行。DataNode和TaskTracker在每个从节点上运行。
Answer-机架感知是名称节点根据机架定义决定如何放置块的方式。Hadoop将尝试最小化同一机架内数据节点之间的网络流量。并且仅在需要时才与远程机架联系。由于机架感知,名称节点能够控制此操作
答案-作业跟踪器负责在从属节点上调度任务,收集结果,重试失败的任务。作业跟踪器是map-reduce执行的主要组件。它控制着将工作划分为较小的任务,将任务提交给各个任务跟踪器,跟踪任务的进度并将结果报告回调用代码。
答:由于Hadoop的设计要在商用硬件上运行。因此,您可以预期数据节点故障。Namenode跟踪所有可用数据节点,并主动维护所有数据上的复制因子。
名称节点主动跟踪所有数据节点的状态。并且在数据节点无响应时立即采取行动。namenode是HDFS的中心“大脑”,当它检测到断开连接时就开始复制数据。
答:我们可以通过两种方式恢复名称节点。一种是从备份元数据启动一个新的名称节点。第二是将辅助名称节点提升为主要名称节点。
名称节点恢复过程对于确保数据的可靠性非常重要。您可以通过使用备份数据启动新的名称节点来完成。或通过将辅助名称节点提升为主要名称节点。
答案-这意味着名称节点试图通过将副本移动到其余数据节点来从这些数据节点检索数据。如果管理员在退役完成之前删除了这些数据节点,则可能会丢失数据。
由于复制策略的缘故,由于在完成退役过程之前整体删除了数据节点,因此可能会丢失一些数据。退役是指名称节点试图通过将副本移动到其余数据节点来从数据节点检索数据。
答案-由于新节点上将没有任何数据。管理员需要启动平衡器以在所有节点之间平均重新分配数据。
Hadoop集群将自动检测新的数据节点。但是,为了优化集群性能,重要的是开始重新平衡以在数据节点之间平均分配数据。
答案-Hadoop群集中的每个节点都有自己的配置文件,需要在每个文件中进行更改。原因之一是每个节点的配置可能不同。
答案-群集处于安全模式。管理员需要等待名称节点退出安全模式,然后才能重新启动作业
当群集上没有二级名称节点并且很长时间没有重新启动群集时,这是Hadoop管理员经常犯的错误。名称节点将进入安全模式,并将编辑日志和当前文件系统时间戳组合在一起
答案-Hadoop集群上性能问题的最常见原因之一是任务分配不均。任务数必须与集群上的可用插槽数相匹配
Hadoop不是硬件感知系统。开发人员和管理员有责任确保资源供需匹配。
答案-从不。名称节点一开始只需要格式化一次。重新格式化namenode会导致整个数据丢失
namenode是唯一只需格式化一次的系统。它将为文件系统元数据创建目录结构,并为整个文件系统创建名称空间ID。
回答-由于大量数据,数据复制需要时间。Hadoop管理员应留出足够的时间进行数据复制。根据数据大小,数据复制将花费一些时间。Hadoop集群仍需要复制数据,并且如果数据大小足够大,则复制将花费几分钟到几小时并不罕见。
我希望您已经阅读并理解了所有Hadoop管理员面试问题。祝您事业蒸蒸日上。