今天我继续处理数据导入的问题,有三点收获:
1.用navicat导入数据过程中产生的错误日志可以复制下来,直接粘贴到navicat里面进行美化,美化后就容易看出来哪里有问题了。只是我遇到的错误日志有6600条,且每条错误日志中大概只保罗3条错误,只是这次的数据一条一条的改,则需要2200次,遂放弃。
2.用UE中“编辑”--“CSV转换”可以将大量的数据变得容易看一些,我觉得有必要回去以后用B站学习一下UE这个功能的具体用法。
3.还有一种方法,用notepad++打开数据文件,把出现过的错误数据留下,其它数据删除,然后再保存导入,这样容易找出错误原因,但是还没进行实验。后来导入sydw数据的时候,存在三十多行导入错误,删除无关数据保存后,导不进去,显示某一列数据过长,用wps打开发现无异常,领存在xlsx后导入成功。
这次导数据给我的经验是:
1.凡是上了10万行的数据,一定让对方导出SQL语句或者数据库专门的导出文件,否则,CSV文件存在的异常格式数据在导入新的数据库过程中出现的问题让人很痛苦。
2.凡是回来的数据都需要加上唯一标识项,再导入,方便查看哪些行导入失败。
其它记录:
有一个数据表6.8亿行,导入1.7亿行后导入进度停止,然后我用linux中的命令把该文件切开,每1.7亿行一个文件,从第二个开始导入。导完以后我发现数据竟然比原表多了好多。我也不知道多了哪些数据,少了哪些数据,顿时有一种挫败感。通过这件事,我有三点感受。
1.要改变遇到事情时候的心态,不能着急,要想着,我又能从这次遇到的问题中找到学习新知识的机会。
2.要想好怎么试验,想好要记录哪些数据,准备好笔本后再开始,把试验过程中的数据和结论记录好,用好拍照功能,整个过程下来,就是自己的收获。
3.一定要让任务线性化,不想着同时做好几件事,容易乱。
这让我想起来一个极端的例子,就是一个研究毒蛇的医生,被一种注明的毒蛇咬了以后,就把什么时候会出现什么症状一一进行记录,成为后世研究这种毒蛇毒性的重要资料。
关于写得东西不够结构化,以后要聚焦一个主题,然后再以结构化的形式往外写。