保持数据模型的协议的优点

问题标题可能是不正确的,因为我的问题的一部分是试图得到更多的了解问题。

我正在寻找确保导入到数据库的数据的优点(简单示例:Excel表格到Access数据库)应该使用相同的模式,并且也应该对业务需求有效。

我有一个Excel表包含没有规范化的数据和一个Access数据库与规范化表。

Excel表格来自多个第三方,其中没有一个使用相同格式的数据库或数据库。

一些来源也不提供所有的相关数据。

什么可以提供的例子

contact_key,date,contact_title,reject_name,reject_cost,count_of_unique_contact

count_of_unique_contact来自不同的contact_title,不应该被导入。 contact_key有时不提供。 标题有时是未知的,并且以“n / a”,“name = ?? 1342”,“#N / A”等相当随机的forms传入。 reject_name往往是拼写错误。 这些字段有时甚至没有提供,例如date和contact_key丢失。

我试图find信息来帮助解释上述问题。 仅涉及不正确的数据或字段的问题使得在数据库中难以获得有用的数据,例如不能在没有提供date的月份中报告拒绝成本的趋势。 正常化Excel文件不是我可以select的。

要求Excel文件中的值和字段与业务要求和格式相匹配,以便每个发送给他们的第三方都是我想要做的,但是请求却是充耳不闻。

我想向客户解释,一直input假数据和检查无效/现有的拒绝/联系是错误的,如果没有经常维护一个糟糕的系统,这样做会失败或者最好是困难的。

有没有人有关于这个问题的任何信息?

谢谢

这是一个普遍的问题; 这在数据处理圈被称为“垃圾进出垃圾”。 从本质上讲,你遇到的是所给的数据质量差, 你是正确的认识到,问题是这将是很难(如果不是不可能)使用这些数据来提取任何有用的信息。

在某种程度上,这是一个应该从源头上解决的问题; 无论您的数据来源是什么,都需要确信数据质量必须提高。 在短期内,您可以清理您的数据; 该术语是指删除或清除错误的条目,以使剩余的数据(“好的”数据)可导入到数据库中。 根据您的数据中有多less百分比是不好的,一旦导入数据,您可能会或可能无法使用已清理的数据做有用的事情。

在某些情况下,由于您没有掌握有关数据质量的pipe理信息,因此您只需向他们展示系统无法正常工作,因为数据质量很差。 他们需要改进他们的stream程,以提高当时所获得的数据的质量。 尽pipe如此,为了获得更好的数据而不断努力。 调查清理数据的过程,看看你能用剩下的数据做什么。 祝你好运!