记一次Hadoop1.0.4集群的事故

由于历史原因，公司内部还在使用hadoop1.0.4版本的集群，而且上面运行的任务还挺多。当初开发这套系统的员工几乎都离职了，所以这块成了鸡肋。撤掉吧，上面还有好的用户；迁移吧，涉及的东西太多，影响比较大。所以这套系统就只能一直这样维护着。

终于在一次集群的大事故中，让大家认识到，再也不能用hadoop1.0集群了。

一、问题的原因

Hadoop1.0的HDFS元数据是存放在fsimage中的，编辑日志存放在edits；SecondaryNameNode节点负责把edits日志合并到fsimage中，用于数据恢复。当遇到edits日志中存在异常的时候，元数据不再往edits文件中写，而是写入edits.new文件中。当发现这个问题的时候，就需要在hdfs的安全模式下，使用以下命令进行恢复

hadoop dfsadmin -saveNamespace

但是在没恢复之前，如果重启namenode节点，问题就大了。我们这边由于某个mr采用多路径输出，把中文输出到文件路径中了，导致在元数据中存放了乱码，启动namenode的时候，fsimage一直检查不通过，异常如下：

ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.io.IOException: Found lease for non-existent file /data/houraggregate/eventself_day/2017/05/01/14/output/_temporary/_attempt_201602020826_208092_r_000006_0/part-r-00006-DESelf_Coi#@$%^Pd
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFilesUnderConstruction(FSImage.java:1440)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:986)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:830)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:377)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.loadFSImage(FSDirectory.java:100)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.initialize(FSNamesystem.java:388)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.<init>(FSNamesystem.java:362)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:276)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:496)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1279)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1288)

二、处理过程

既然是edit文件出异常，就应该修复该文件。查看资料是可以通过以下命令把edit这个二进制文件解析成xml文件的

hdfs oev -i edits -o edits.xml //解析edits文件
hdfs oiv -i fsimage -o fsimage.xml //解析fsimage文件

解析完成后通过以下命令重新转回二进制文件

hdfs oev -i edits.xml -o edits -p binary //转换xml文件成edits文件
hdfs oiv -i fsimage.xml-o fsimage -p binary //转换xml文件成fsimage文件

由于系统是hadoop1.0.4所以不存在 hdfs 这个命令，只好把文件拷贝到hadoop2.6.0上进行操作。

打开转换后的xml文件，把存在乱码的Recode标签内的记录都删除掉，然后在转换为二进制文件。

当解析 image 文件的时候，发现解析不了，查看资料才发现，原来fsimage文件是与hadoop版本一一对应的。

所以上面所做的所有工作都是无效的。

后面想到，能不能通过查看hadoop写fsimage文件的过程，然后反过来解析呢？但是这样处理，会耗费大量的时间去阅读源码，实际情况是不允许的。转念一想，能不能把判断乱码的代码修改为，如果遇到就跳过呢？

通过查看异常的堆栈，找到是 FSImage 类的以下代码报出的异常

for (int i = 0; i < size; i++) {
      INodeFileUnderConstruction cons = readINodeUnderConstruction(in);

      // verify that file exists in namespace
      String path = cons.getLocalName();
      
      INode old = fsDir.getFileINode(path);
      if (old == null) {
        // 从此处报出异常
        throw new IOException("Found lease for non-existent file " + path);
      }
      if (old.isDirectory()) {
        throw new IOException("Found lease for directory " + path);
      }
      INodeFile oldnode = (INodeFile) old;
      fsDir.replaceNode(path, oldnode, cons);
      fs.leaseManager.addLease(cons.clientName, path); 
    }

把代码修改如下：

for (int i = 0; i < size; i++) {
      INodeFileUnderConstruction cons = readINodeUnderConstruction(in);

      // verify that file exists in namespace
      String path = cons.getLocalName();
      
      // 添加判断，把存在异常的路径过滤掉
      if (path.contains("_temporary")){
          continue;
      }
      
      INode old = fsDir.getFileINode(path);
      if (old == null) {
        throw new IOException("Found lease for non-existent file " + path);
      }
      if (old.isDirectory()) {
        throw new IOException("Found lease for directory " + path);
      }
      INodeFile oldnode = (INodeFile) old;
      fsDir.replaceNode(path, oldnode, cons);
      fs.leaseManager.addLease(cons.clientName, path); 
    }

然后编译FSImage类，打包到hadoop-core-1.0.4.jar中，放入hadoop1.0.4 namenode节点的对应目录下，重启namenode进程，终于能正常启动了。

三、总结

1、不能在edits.new存在的情况下，重启namenode进程

2、hdfs中的路径不能存在乱码，最后就用字母数字下划线这些比较通用的字符来做路径

最后编辑于：2017.12.08 06:25:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

记一次Hadoop1.0.4集群的事故

一、问题的原因

二、处理过程

三、总结

推荐阅读更多精彩内容