`
leongfans
  • 浏览: 85372 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HDFS中的部分Datanode存在大量没有删除的Block磁盘被占满

阅读更多

数据中心的HBase(cdh3u3)集群已经稳定运行了差不多半年多了。由于前期规划的不合理,最近给所有的数据节点分批重装了一下系统,最后发现经常有几个节点出现磁盘空间不足的异常。查看文件系统,发现原来大约占用6T空间的HDFS已经占用了差不多15+T的数据

1、先用fsck进行文件系统检查,发现大约占用2T的空间(*3约等于6T,数据重量差不多就是这么多),并没有数据块有过多的备份。

2、查看对应datanode的数据目录,发现确实有很多的数据块(量非常大,都超过了实际hdfs中的数据块总量)

 

这时候,猜测应该是有很多需要被删除的数据块没有被删除。猜测可能是NameNode和DataNode之间的通讯出现异常导致。于是查看NameNode和DataNode日志,发现并没有任何异常信息,只是发现NameNode定时对其中的三台机器发出了删除指令

 

BLOCK* ask 192.168.200.8:50010 to delete  blk_7080908721303033545_7530145
BLOCK* ask 192.168.200.9:50010 to delete  blk_-6550808355677895247_7465333
BLOCK* ask 192.168.200.7:50010 to delete  blk_2415291932316966347_7460687

 

其他节点则没有收到过相应的删除数据块的指令。因为所有节点的心跳一直没有问题,日志中也没有异常信息,一时想不到解决这个问题的办法。于是重启datanode,仍然无法删除过期的数据块。重启namenode,过了一段时间,发现数据量恢复正常了。

 

可是,过了一周发现同样的问题再次出现。google了一圈,只有在maillist中找到有人提到相关的问题,但是描述起来和我的情况并不完全一致:

Unbalanced Datanode and Lots of Blocks Waiting for Deletion

最后,通过dfsadmin证实了,确实是有大量的block在等待删除

hadoop dfsadmin -metasave meta.txt

meta.txt显示有:几十万的block等待删除

Metasave: Blocks 572428 waiting deletion from 8 datanodes.

4、没有办法,只好从源码着手。在FSNameSystem.java文件里面找到了最终问题的所在:

  public int computeDatanodeWork() throws IOException {
    int workFound = 0;
    int blocksToProcess = 0;
    int nodesToProcess = 0;
    // blocks should not be replicated or removed if safe mode is on
    if (isInSafeMode())
      return workFound;
    synchronized(heartbeats) {
      blocksToProcess = (int)(heartbeats.size() 
          * ReplicationMonitor.REPLICATION_WORK_MULTIPLIER_PER_ITERATION);
      nodesToProcess = (int)Math.ceil((double)heartbeats.size() 
          * ReplicationMonitor.INVALIDATE_WORK_PCT_PER_ITERATION / 100);

    }

    workFound = computeReplicationWork(blocksToProcess); 
    
    // Update FSNamesystemMetrics counters
    synchronized (this) {
      pendingReplicationBlocksCount = pendingReplications.size();
      underReplicatedBlocksCount = neededReplications.size();
      scheduledReplicationBlocksCount = workFound;
      corruptReplicaBlocksCount = corruptReplicas.size();
    }
    
    workFound += computeInvalidateWork(nodesToProcess);

    return workFound;
  }

 注意上面红色部分代码,computeInvalidateWork就是用于计算这次需要删除的数据块。但是并不是每次都把所有的节点都处理一遍,而是每次只处理nodesToProcess个节点,而这个数量决定于datanode的总数(heartbeats.size,我这儿是8)和一个系数(INVALIDATE_WORK_PCT_PER_ITERATION,写死的32)。

也就是说每次只处理

8*32% = 3(这就解释了为啥每次只删除三台数据节点上的数据块。)

再查看节点选择部分:

……
  private Map<String, Collection<Block>> recentInvalidateSets = 
    new TreeMap<String, Collection<Block>>();

……
String firstNodeId = recentInvalidateSets.keySet().iterator().next();

……
 

发现是通过iterator遍历的,然后悲剧的发现recentInvalidateSets用的是TreeMap,也就是说是有序的……

所以只要这三个节点有数据需要删除,就不会删除到其他节点

 

这时候,发现这个问题是调整的时候,修改了一个配置项(dfs.replication.interval,默认是3秒,我修改成了30秒)导致的,当时修改的初衷是防止过早出现数据块复制。但是修改这个配置项以后,数据块副本数检查的间隔拉长了,导致30秒内,有几台机器一直有数据块需要删除,从而无法删除其他节点上的数据块,最终导致磁盘空间无法释放。因为INVALIDATE_WORK_PCT_PER_ITERATION是系统写死的,所以只能通过把dfs.replication.interval改回来,暂时解决这个问题。

 

 

ps:查了一下最新的1.0.4代码,这部分bug已经修复,改成随机抽取的模式,避免出现上述情况。(cdh3u4还存在这个问题)

 

1
1
分享到:
评论
1 楼 wm810711 2014-10-17  
希望中国的程序员都像你这样,感谢分享

相关推荐

    hdfs源码.zip

    4.2.2 Datanode磁盘存储结构 315 4.2.3 DataStorage实现 317 4.3 文件系统数据集 334 4.3.1 Datanode上数据块副本的状态 335 4.3.2 BlockPoolSlice实现 335 4.3.3 FsVolumeImpl实现 342 4.3.4 ...

    HDFS详解和配置文件

    HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop中...在HDFS中,数据存储的基本单位是Block,即文件上传到HDFS上之后,都会被切分为Block形式来进行存储,Block最终会落地到DataNode的磁盘上。

    大数据平台构建:HDFS运行原理.pptx

    HDFS运行原理 HDFS存储机制 1 Block 2 元数据 3 HDFS读流程 4 HDFS写流程 ...一、HDFS存储机制 假如目前由一个10G的文件要存储到...lock文件是DataNode本地磁盘中名为“blk_blockId”的Linux文件。 Block文件 BP-random in

    大数据面试题-.docx

    HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 大数据面试题-全文共...

    大数据平台常见面试题.pdf

    Client 将⽂件划分为多个 Block,根据 DataNode 的地址信息,按顺序写⼊到每⼀个 DataNode 块中。 6. 下⾯与 HDFS 类似的框架是?C A NTFS B FAT32 C GFS D EXT3 7. 的 8. 的 1.1.2 集群管理 1. 下列哪项通常是集群...

    大数据开发技术.pdf

    Namenode 负责 维护整个 hdfs 文件系统的目录树结构,以及每一个文件所对应的 block 块信息(block 的 id,及所在的 datanode 服务器) 。 2 Namenode 节点负责确定指定的文件块到具体的 Datanode 结点的 映射关系。...

    大数据面试题.doc

    HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)...

    大数据面试题(1).doc

    HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)...

    罗李:HDFS元数据的独立服务和独立持久化存储

    淘宝为解决数据的急剧膨胀,文件数的不断增多,Block随之成倍的增长,内存的急剧上涨,一致性保证造成的性能瓶颈,内存的数据结构复杂,Meta服务依靠NameNode的启停,部分meta数据没有持久化等问题,重新设计部署了...

    大数据面试题,唬住50k.pdf

    Client 将⽂件划分为多个 Block,根据 DataNode 的地址信息,按顺序写⼊到每⼀个DataNode 块中。具体查看HDFS 体系结构 简介及优缺点。 1. 1. 下列哪个是 Hadoop 运⾏的模式 a)单机版 b)伪分布式 c)分布式 答案 ABC ...

    大数据面试题.docx

    HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 大数据面试题全文共16页,当前为第1...

    大数据面试题(1).docx

    HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler ...

    大数据开发笔试.docx

    当缓冲的内存大小使用超过一定的阈值(默认80%),一个后台的线程就会启动把缓冲区中的数据写入(spill)到磁盘中,往内存中写入的线程继续写入知道缓冲区满,缓冲区满后线程阻塞直至缓冲区被清空。在数据spill到...

    大数据技术及应用教学课件第3章-大数据存储技术.pptx

    块(block) 所有文件都是以块的形式存储在磁盘中,文件系统每次只能操作磁盘块大小的整数倍数据,HDFS中一般默认块大小为64MB。 2.元数据 元数据信息包括名称空间、文件到文件块的映射、文件块到数据节点的映射三个...

    4399大数据笔试题.pdf

    4399⼤数据笔试题 今天晚上参加了厦门 今天晚上参加了厦门4399公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要记录回忆下 公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要...

    hadoop大数据实战手册

    第一部分核心设计篇 第1 章HDFS 的数据存储………….. .....………………… ……………………····· ··· …..... ... 2 1.1 HDFS 内存存储...............…·······················...

Global site tag (gtag.js) - Google Analytics