Tag: openrefine

如何纠正丢失的单元格/缺less分隔符导致“移位”的数据在一组列?

我有每行分号分离制造商的产品和供应商的数据缺失细胞。 电子表格中的每个制造商产品都有多个供应商。 数据的顺序将始终是相同的列: vendor_name_1, vendor_address_1, vendor_phone_1, vendor_fax_1, vendor_contact_mobile_1, vendor_contact_email_1, etc. 如果该产品有多个供应商(几乎所有的供应商都是大多数供应商),则从左到右依次按相同的顺序重复列: vendor_name_2, vendor_address_2, vendor_phone_2, vendor_fax_2, vendor_contact_mobile_2, vendor_contact_email_2, etc. 此时,只要该行上的产品有更多供应商,就会重复这些列。 一个“好”的行将在正确的列中包含所有可用的数据: Motion Distributors; 3231 Apex Drive; Dulles, Ohio 45321; (321) 542-6422(p); (321) 542-6428(f); (321) 542-6680(m); alan@motiondist.com; etc. etc. 一个“坏”的行将有一个或多个缺less的行至less有一个供应商,这当然会影响到所有缺失的单元格的权利,所以一切都被转移。 由于单元格中的某些数据丢失,所以问题是将每行中的数据返回到正确的单元格。 例如,如果vendor_fax号码丢失,那么缺less的单元格右侧的所有单元格都不会进入正确的列并被移位。 更糟糕的是,由于同一产品有多个供应商,每行丢失的单元越多,该行就越多。 有没有办法解决这个问题,因为每个列集具有相同的安排,只有额外的分隔符丢失? 我希望至less对于公司和联系人姓名以及每个列types(姓名,电话号码,电子邮件等)的通用匹配的电话号码是否有修正? 有没有办法按每行处理电子表格以确保匹配发生? 如有必要,我可以将单元格拆分成其他列,如果它允许更具体的匹配。 我非常渴望去解决问题所需的任何语言或实用程序。 我在这里search了几个类别,并没有看到一种方法来解决这个(但)…

在Google Open Refine(或Excel)中格式化date,例如“20110822”?

我有一个数据集在同一列中有两个不同的date格式。 有些格式如下: 2008-05-15T00:00:00Z 其他格式如下: 20090804 Google Open Refine会将第一个types识别为date,并将sorting并允许我对其执行其他操作。 我无法弄清楚如何格式化第二个types到一个date。 转型: value.toDate() 抛出一个错误,就像我尝试的所有其他事情一样。 这似乎是一个简单的问题,但谷歌没有帮助。

根据列和总和值合并多行(Excel,Google Refine,Google电子表格)

我有大量的行,如下所示: | Name | Value | |——–|——-| | name 1 | 12 | | name 1 | 10 | | name 1 | 1 | | name 2 | 55 | | name 3 | 1 | | name 3 | 8 | 我需要根据“名称”列合并所有行到一行,并在相关行中总结“值”。 结果应该是: | Name | Value | |——–|——-| | name 1 | […]