自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题 ec2上有8个gpu,结果code只能拿到一个g...
这两天仔细看了下分布式pytorch的文档…起因是跑分布式pytorch的时候,在training的最后一个epoch挂掉了首先在最后一个epo...
最近碰到pytorch分布式训练时候,memory几乎线性增加,撑炸机器的问题。pytorch中内存泄漏常见的原因大概是以下几点: 不恰当的lo...
这两天弄训练数据的时候碰到了一个大坑本来数据集就比较大,在划训练样本的时候,训练样本的分布就出现了不均匀的情况(有的parition多,有的少)...
可能是需要加机器,或者选择升级机型 当然,以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为...
比如team最近在做新的version,某天该version code freeze了,但是你发现你最新的commit居然在code freez...
今天用spark的时候碰到的问题,直接对一个大的dataframe做agg,导致buffer超了。可以人为的在dataframe上append一...
最近在调研embedding的方法,重新学习了一下word2vect,深感自己有很多不足…在看xin rong博士的paper:https://...
出现这个问题是因为在parquet数据中,有的column数据类型不一致。发现这个问题是在load data的时候。如果 load 的数据是多路...