Data Processing

Sheng | April 25, 2022, 11:15 a.m. | Views: 561

看到有人说过，数据处理中，数据清洗工作占 90%。可能有些夸张，但超过 50% 应该是没跑了。

以前公司 ERP 用的是 SAP。每个月 MD 部门会给我们市场部一张原始数据表，Excel 的。

这个 Excel 文档大概 60 多 MB 的大小， 6位数的行数，列则一直排到了“EG”。这么多的列显然是一张 Pivoted 的表格。一般拿到表格后，我先把 GC 的部门筛选出来，然后 Unpivot，于是就有了 700 多万行的一张表了：

虽然公司电脑就是普通的办公电脑，性能一般，但好在这些数据在 Power BI 里跑起来也还能忍受……无非上个卫生间或者倒杯水的时间。

数据处理第一步，数据清洗。

公司原始数据里有很多地方要事先做调整。比如：有的客户会更换银行账户，这样同名字同 ID 的客户数据会出现在两行，并且出现断层，这就需要把这两行整合到一行里。

公司内部数据量虽然大，坑虽然多，但好在表不多。当然后来的公司可以接触到 SQL Server，那样拿到的就直接是数据库里的表了，加上一些 Views，也有 70 多张表了，Model 都无法正常使用了：

外部的市场数据则麻烦在表很多。虽然每张表的数据量不一定很大。表多的问题除了清洗的工作量大，还有就是要建很多的关联表。

Data