Tag: 数据清理

如何在Excel中擦除数据，特别是删除特定范围之外的极端exception值？: 我有从模型输出的数以千计的数据单元格，结果格式如下：单元格ID是列标题，每行是一个时间步，每个单元格的结果超过数百步时间打印出来的电子表格。我想分析一定百分点内的数据。我已经确定了什么值的百分点阈值的利益，但我没有find明确的方向如何… a）删除我感兴趣的范围之外的所有值，对于我正在工作的工作表要么 b）将感兴趣范围内的值从表单中提取出来并分成一个单独的一个以供进一步分析这些值是有两位小数的数字。我需要清理数据，然后分析一下。例如，即使在删除时间序列中的极值最大值和最小值之后，我仍然希望看到整个时间序列，但删除了exception值或将其更改为空值。我怎样才能从这个数据matrix中select或者简单地删除所有的exception值，而让其余的数据保持完整？

我怎样才能合并多个单元格，而不会丢失文本数据，而不使用公式？: 从每天收到的电子邮件中导入数据时，我必须通过并清理一个列，其中有一组行，如下面所示。我想知道的是如何将列B的数据合并到第1行，以便我可以删除现在的空行2和3.我已经看到了连接等公式，但是这需要保留数据。只要我清理这些数据，它将被移动到另一张纸上。感谢您的帮助。 |——–A———|———B——–|——–C———| 1 Important Data | Important Data | Important Data | |——————|——————|——————| 2 Empty Cell | Empty Cell | Empty Cell | |——————|——————|——————| 3 Empty Cell | Important Data | Empty Cell | |——————|——————|——————|

添加基于“查找字符”的换行符并返回到第一个空格: 我正在清理大量具有如下常见模式的数据：注册编号：15082608date：15-JUN-15 BACKTRACK清除date：31-八月-15接收机构：13-MAY-15机构：奥克兰（每个logging约25个其他数据点，但遵循这种模式）。包含一系列logging的原始PDF文件位于： http ： //abc.ca.gov/reports/Actions2015/ActionsFinal_09-23-15.pdf 我不是一个程序员，但是，已经尝试了Refine和一堆Exceltesting，但是，还没有find一种方法，我可以做到这一点的大量的logging（数千，但将从几十:)开始。所以，我的问题是：脚本是否可以识别冒号“：”，然后回退到冒号前的第一个空格，例如“Date：15-JUN-15 BACKTRACK Cleared：Date：31-AUG-15”，然后为每个实例input一个新行？所以得到的输出将是： Date:15-JUN-15 BACKTRACK Cleared: Date:31-AUG-15 另一个问题是，我可以手动将每个logging（所有25个以上的数据点）复制并粘贴到一个唯一的单元格中，但是最理想的是将PDF保存为电子表格，并且基本上为每一行都build立一行发现 – 在一些单元格中会有多个冒号，我需要脚本相应地击倒其他行。一旦我到达那个地方，我可以做一个文本到列，然后从那里build立我的数据库。

使用R将新数据附加到格式化的xlsx工作表: 我正在尝试使用xlsx包来帮助清理复杂的数据集，因为有新数据出现。我正在寻找一个如下所示的工作stream程：将数据导入R，做一些编码的数据清理。将数据写入一个xls文件，将其保存到一个保pipe箱文件夹然后，不具备R语言能力的同事（和我自己）可以进行手动数据清理随着更多的数据进入，我重复步骤1，然后将其附加到现有的XLS文件，保留格式，如突出显示，注释或粗体。最后，我很好奇，如果我希望能够在LibreOffice（在我使用的Linux）和Excel（在同事使用的Windows中）中工作，这是相关的。目前，我无法find将数据追加到现有电子表格的方法，而没有完全重写（并因此丢失任何格式）。下面是一个我希望能够使用预加载的iris数据集的例子： #Import data, do some coded cleaning: data = iris[1:10,] data$Sepal.Ratio = with(data, Sepal.Length/Sepal.Width) data$Sepal.Length = NULL data$Sepal.Width = NULL data$Species = as.character(data$Species) #Write to excel… write.xlsx(data,file="ss.xls") #Manually make some changes system('soffice /path/to/ss.xls') （见截图） #Load and clean more data… data = iris[11:20,] data$Sepal.Ratio = with(data, Sepal.Length/Sepal.Width) […]

如何将Excel数据的一部分转换为列以获得所需的输出？: 例如 – 说我有以下格式的数据 – 当前格式为了便于使用，我需要将数据格式化为以下格式 – 必需的格式当然，数据包含更多的logging – 我正在寻找一种简单的方法来以这种方式转置大量数据的数据。任何帮助将不胜感激：）

如何删除SQL Server中奇怪的Excel字符？: 有一个奇怪的空白字符，我似乎无法摆脱偶尔显示从Excel导入时，我的数据。显而易见，它是一个空白字符，但SQL Server将其视为一个问号（ASCII 63）。 declare @temp nvarchar(255); set @temp = 'carolg@c?am.com' select @temp 收益： ?carolg@c?am.com 我怎样才能摆脱空白而不摆脱真正的问号？如果我查看每个“？”的ASCII码实际上，我得到63个字符，其中只有一个是真正的问题标记。

映射来自多个供应商的财务数据以匹配内部格式和命名约定: 我有一个担心，我认为这可能是一个很好的档案主题，因为我想很多人在他们的职业生涯中可能会遇到类似的问题。我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有build议，意见和评论。我的故事：目前，我收到两个不同类别的数据（又名“常量”和“variables”）。包含大量的财务信息[即。贷款，利率，抵押贷款，地址等]。每个供应商都有自己的格式风格和不同于我自己的命名约定。设置1）常量集：每天包含来自不同供应商的大约25个CSV文件。每个供应商的数据都有不同的名称（列标题），但是他们的数据格式与我的相似。设置2）variables集：包含大约20个文件，虽然他们的格式和头几乎总是唯一的（即我有一个名为“贷款利率”的数据集，我的供应商称之为“Rate”，“LnRt”，“rT “，”PxrT“等）。因此，我需要通过每个文件，首先清理数据的格式（正确的大小写格式，parsing名称到不同的列，转换date/时间格式等）。然后重新标签的一切。我目前的清理数据的方法是在Excel中使用“上传模板”。清理完所有数据的格式之后，我将供应商文件中的值复制到我的模板中。然后我将模板中的数据加载到temp中。在SQL服务器上的表（Staging Table）。随后运行一些SQL脚本，将这些值插入到数据库（DB）中的适当位置。正如你可能想象的那样，整个过程非常耗费时间 – 手动继续这样做并不是真正的select。在我的问题上： 1）你有没有做过这样的事情？如果是的话，你是怎么做到的？ 2）任何想法如何快速更改列名称（标题）基于另一个表内的名称列表？ 3）对于如何改进stream程，您有什么build议吗？ 4）你知道任何可以自动化这个过程的软件吗？

从Excel字段parsing出姓和名: 我在excel中有一个字段（列），格式为“LastName，FirstName MiddleInitial”，在姓氏和名字之间留有一个空格，中间名和名字之间有一个空格（没有逗号名字）。有没有一种方法来确定哪些单元格在右侧有一个中间初始值，然后消除所有单元格的中间初始值，以便输出看起来像“LastName，FirstName”？谢谢！