Data Processing

Sheng | April 25, 2022, 11:15 a.m. | Views: 303

看到有人说过,数据处理中,数据清洗工作占 90%。可能有些夸张,但超过 50% 应该是没跑了。

以前公司 ERP 用的是 SAP。每个月 MD 部门会给我们市场部一张原始数据表,Excel 的。

这个 Excel 文档大概 60 多 MB 的大小, 6位数的行数,列则一直排到了“EG”。这么多的列显然是一张 Pivoted 的表格。一般拿到表格后,我先把 GC 的部门筛选出来,然后 Unpivot,于是就有了 700 多万行的一张表了:

虽然公司电脑就是普通的办公电脑,性能一般,但好在这些数据在 Power BI 里跑起来也还能忍受……无非上个卫生间或者倒杯水的时间。

数据处理第一步,数据清洗。

公司原始数据里有很多地方要事先做调整。比如:有的客户会更换银行账户,这样同名字同 ID 的客户数据会出现在两行,并且出现断层,这就需要把这两行整合到一行里。

公司内部数据量虽然大,坑虽然多,但好在表不多。当然后来的公司可以接触到 SQL Server,那样拿到的就直接是数据库里的表了,加上一些 Views,也有 70 多张表了,Model 都无法正常使用了:

外部的市场数据则麻烦在表很多。虽然每张表的数据量不一定很大。表多的问题除了清洗的工作量大,还有就是要建很多的关联表。

Data
欢迎评论 / Comments are always welcome
登录后即可评论 / Log in to add a comment !

No comments yet...