映射来自多个供应商的财务数据以匹配内部格式和命名约定

我有一个担心,我认为这可能是一个很好的档案主题,因为我想很多人在他们的职业生涯中可能会遇到类似的问题。 我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有build议,意见和评论。

我的故事:

目前,我收到两个不同类别的数据(又名“常量”和“variables”)。 包含大量的财务信息[即。 贷款,利率,抵押贷款,地址等]。 每个供应商都有自己的格式风格和不同于我自己的命名约定。

设置1)常量集:每天包含来自不同供应商的大约25个CSV文件。 每个供应商的数据都有不同的名称(列标题),但是他们的数据格式与我的相似。

设置2)variables集:包含大约20个文件,虽然他们的格式和头几乎总是唯一的(即我有一个名为“贷款利率”的数据集,我的供应商称之为“Rate”,“LnRt”,“rT “,”PxrT“等)。 因此,我需要通过每个文件,首先清理数据的格式(正确的大小写格式,parsing名称到不同的列,转换date/时间格式等)。然后重新标签的一切。

我目前的清理数据的方法是在Excel中使用“上传模板”。 清理完所有数据的格式之后,我将供应商文件中的值复制到我的模板中。 然后我将模板中的数据加载到temp中。 在SQL服务器上的表(Staging Table)。 随后运行一些SQL脚本,将这些值插入到数据库(DB)中的适当位置。

正如你可能想象的那样,整个过程非常耗费时间 – 手动继续这样做并不是真正的select。

在我的问题上:

1)你有没有做过这样的事情? 如果是的话,你是怎么做到的?

2)任何想法如何快速更改列名称(标题)基于另一个表内的名称列表?

3)对于如何改进stream程,您有什么build议吗?

4)你知道任何可以自动化这个过程的软件吗?

三个字母:ETL

打谷歌,有几个免费的ETL工具。 你正在重新发明你的过程。