好像被哪位仁兄收录进个什么专题里了,但是这是一篇很水的吐槽日志,不是讨论技术的,看了恐怕浪费您时间。还请慎看。
根据记录,昨晚凌晨3点左右我提交了三个任务,确认它们正常运行。另外,因为License限制和队列设置问题,还有一个待提交的任务未能排队,我写了一个脚本监控已提交的任务,若有任务算完了则提交新任务。然后就去睡了。
今天白天因为种种原因没能及时检查运行情况,刚才才看。结果让我大吃一惊。。。
首先,3点开始运行的同批次任务,其中一个任务的开始计算时间竟然是早上10点半。最神奇的是最晚开始的任务算得最快,速度比另两任务高出一倍。并且它计算的步数并不比另两个少。——打完这句话我想起个事,检查一下速度的问题果然原来这只是因为它独占了一个节点,而另两任务共用同一节点。。
然后,我写的监控脚本,从我临睡前开始记录,到中午3点左右忽然就没消息了,而且根据记录也并不是运行完退出的,不知是为什么。
晚上买了一大包看起来很好吃的吞拿鱼粒(为什么说看起来很好吃,因为我吃过类似包装的牛肉粒,很美味),刚才拿了几颗来吃,那味道简直…………诡异得有点想吐。晕啊,这极具迷惑性的外表让我一个手抖就买了好几十颗,难道又要把心一横把它扔了吗……比直接扔钱还难受。
现在是第二天早上。
刚才一查看结果我简直要气死了。三个任务“No space left on device”,预约提交的任务没有错误提示,全断掉了。而且最SB的是这软件的checkpoint file要全部算完才给出,临时文件在它声称的位置实际上是找不到的。所以一旦没算完就非中常中断你就等着哭吧。花十几二十万买回的软件竟然是这德性。又白算了两天。
刚才问师弟他的任务是不是很耗硬盘容量,说开来,这才留意到这组服务器的home目录的容量小得可怜,20多人分200多G,想不用完都难。原来师弟们都放弃home跑到另一个硬盘下去提交了。面对一堆permission denied,我都没留意原来普通用户还能在非home目录下浪的。。