Sheng | April 25, 2022, 11:15 a.m. | Views: 303
看到有人说过,数据处理中,数据清洗工作占 90%。可能有些夸张,但超过 50% 应该是没跑了。
以前公司 ERP 用的是 SAP。每个月 MD 部门会给我们市场部一张原始数据表,Excel 的。
这个 Excel 文档大概 60 多 MB 的大小, 6位数的行数,列则一直排到了“EG”。这么多的列显然是一张 Pivoted 的表格。一般拿到表格后,我先把 GC 的部门筛选出来,然后 Unpivot,于是就有了 700 多万行的一张表了:
虽然公司电脑就是普通的办公电脑,性能一般,但好在这些数据在 Power BI 里跑起来也还能忍受……无非上个卫生间或者倒杯水的时间。
数据处理第一步,数据清洗。
公司原始数据里有很多地方要事先做调整。比如:有的客户会更换银行账户,这样同名字同 ID 的客户数据会出现在两行,并且出现断层,这就需要把这两行整合到一行里。
公司内部数据量虽然大,坑虽然多,但好在表不多。当然后来的公司可以接触到 SQL Server,那样拿到的就直接是数据库里的表了,加上一些 Views,也有 70 多张表了,Model 都无法正常使用了:
外部的市场数据则麻烦在表很多。虽然每张表的数据量不一定很大。表多的问题除了清洗的工作量大,还有就是要建很多的关联表。