今天说实话,不太好过,2个问题,一个问题是sqoop导数报错,从HDFS导MYSQL,其实这个错误已经出现过好几次了,但是出现的频率不是很高,简而言之就是隔三差五给你来一次,真的很让人恶心,究其原因,错误是主键重复,但是查阅集群上的文件主键并没有重复,但是经过多次重试,又可以导进去,总结来说,就是:主键不重复但是入MYSQL时报主键重复,重试后成功但是重试的次数不定,最后我们能想到的可能触发错误的点是这个表定义的主键有一个是中文,有可能导入MYSQL中会发生转义,因为从日志看到的错误是乱码,且汉字发生了截取,入库部分乱码相同导致主键重复,但是一切都是猜想,需要验证!!
第二个问题是:指标0407缺陷的原因找到了,缺少一个关联条件,简单描述就是:我会拿今天的数据和昨天的数据作比较,对于同一个客户如果关键信息发生了变化,我就认为它是新增,如果没有变化就是修改,在比较的过程中,由于关联字段个数不够,也就是粒度不够,导致数据量反而大增,而且标识也不对,这个问题已经解决,明天提交测试中心测试。