Tag: 数据处理

根据几个条件从数据数组中返回值

我有一个数据表3列(为简洁起见,简化了看,但保留排列和数据格式,第一列A Date格式与我的区域设置,但它不是文本): Date Module Value 27.01.2013 xxxxx 90 27.01.2013 ttttt 100 29.01.2013 aaaaa 110 31.01.2013 aaaaa 50 31.01.2013 mmmmm 200 31.01.2013 ttttt 80 03.02.2013 ttttt 140 04.02.2013 aaaaa 120 07.02.2013 mmmmm 150 07.02.2013 ttttt 90 07.02.2013 aaaaa 190 08.02.2013 aaaaa 210 08.02.2013 aaaaa 90 08.02.2013 aaaaa 170 08.02.2013 ttttt 90 08.02.2013 ttttt 110 08.02.2013 mmmmm […]

如何使用EXCEL公式从一列单元格中提取具有特定模式的文本?

请帮助,我有一个数据集,其中包含一列文字,其中包含用户提及和他们的鸣叫。 我想提取EXCEL中推文中提到的所有用户。 换句话说,我想要做这个任务:如果行的单元格值包含文本以@开始并以空格结束,则将该string值放在另一列中,对于列中的每一行,每个单元格可能包含更多而不是一个string(在推文中提到多个用户)。问题是EXCEL公式可能与编码没有关系吗? 如果是的话,请你指导我使用哪个公式。如果不是,你知道完成这个任务的好方法吗? 请不要给我链接文件,如果你有一个良好的文件代码来完成这项任务,或知道一个软件/工具,可以做到这一点将是伟大的。 感谢您的帮助提前。

Excel:在“命令文本”中发送多个值

位于“数据>连接>属性>定义(选项卡)>命令文本”,我有以下几点: {Call SP_calculo_algo(?)} 当前函数通过它唯一的参数只接收一个值,根据某人告诉我,它由问号(?)的字符表示。 我需要的是通过函数发送两个(2)值,因为我有SQL查询返回数据引用两个date之间的范围。 例如:开始date(参数1)和结束date(参数2)。 你可以帮我吗?

映射来自多个供应商的财务数据以匹配内部格式和命名约定

我有一个担心,我认为这可能是一个很好的档案主题,因为我想很多人在他们的职业生涯中可能会遇到类似的问题。 我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有build议,意见和评论。 我的故事: 目前,我收到两个不同类别的数据(又名“常量”和“variables”)。 包含大量的财务信息[即。 贷款,利率,抵押贷款,地址等]。 每个供应商都有自己的格式风格和不同于我自己的命名约定。 设置1)常量集:每天包含来自不同供应商的大约25个CSV文件。 每个供应商的数据都有不同的名称(列标题),但是他们的数据格式与我的相似。 设置2)variables集:包含大约20个文件,虽然他们的格式和头几乎总是唯一的(即我有一个名为“贷款利率”的数据集,我的供应商称之为“Rate”,“LnRt”,“rT “,”PxrT“等)。 因此,我需要通过每个文件,首先清理数据的格式(正确的大小写格式,parsing名称到不同的列,转换date/时间格式等)。然后重新标签的一切。 我目前的清理数据的方法是在Excel中使用“上传模板”。 清理完所有数据的格式之后,我将供应商文件中的值复制到我的模板中。 然后我将模板中的数据加载到temp中。 在SQL服务器上的表(Staging Table)。 随后运行一些SQL脚本,将这些值插入到数据库(DB)中的适当位置。 正如你可能想象的那样,整个过程非常耗费时间 – 手动继续这样做并不是真正的select。 在我的问题上: 1)你有没有做过这样的事情? 如果是的话,你是怎么做到的? 2)任何想法如何快速更改列名称(标题)基于另一个表内的名称列表? 3)对于如何改进stream程,您有什么build议吗? 4)你知道任何可以自动化这个过程的软件吗?

数据透视表中的复杂数据处理(平均值)

我正在绘制产品的收益率。 我有两种分类产品的方式,可以说这两种方式首先是数字:1,2,3,4等,然后是字母,a,b,c,d,e等。 这些字母是数字的一个子类别。 所以在产品中,我在个别号码组中有许多不同的字母: 1:a,b,c,e 2:c,d 3:a 对于每个产品,我已经计算了产量并将其绘制在数据透视表中。 我已经绘制了数据透视表,以便“字母”是列标签中“数字”的子类别,请参阅下面的图片(请注意,在图片中,子类别也使用数字标注,“字母”子类别只是试图解释与这个问题更多的对比) 这一切都很好,但我希望find“数字”范围内的所有内容。 然而,要完成这个任务还有一个最后的问题需要考虑:每个字母子类别中产生平均产量的产品数量可能不同。 即: 1 – a:2个产品中的2个产品= 1(分数产量) 1-b:22个产物中的2个产物= 0.09(分馏率) 这在使用数据透视表时会导致问题。 使用上述收益率分数,如果我使用数据透视表的“平均收益率”来计算所有“1”组的总收益率,则计算: 1 + 0.09 / 2 …. = 0.54(分数收率) 但是我们可以看到,这不是收益率的真实表示,因为它应该是: (2 + 2)/(2 + 22)= 4/24 = 0.17(分数收率) 任何人都可以用数据透视表来计算真实的收益率,而不是平均值吗?

Spreadsheet Manipulation Tricks w / Python's Pandas

我给自己一个使用Python和pandas进行数据处理的速成课程。 我终于厌倦了使用电子表格,并想要比R更灵活的东西,所以我决定给它一个旋转。 这是一个非常漂亮的界面,我正在玩它。 然而,在研究不同的技巧时,我一直无法find基本的电子表格函数的备忘单,尤其是关于将公式添加到引用其他列的数据框中的新列的问题。 我想知道是否有人可能会给我推荐的代码来完成下面的6个标准电子表格操作,只是为了让我更好地了解它是如何工作的。 如果您希望看到全尺寸的图像渲染, 请点击这里 如果您想自己查看电子表格, 请点击此处 。 我已经有点熟悉向数据框添加列,主要是我正在努力的特定单元格的交叉引用。 基本上,我期待的答案松散地看起来像这样: table['NewColumn']=(table['given_column']+magic-code-that-I-don't-know).astype(float-or-int-or-whatever) 如果我能很好地使用额外的库来完成这些function,请随时提出build议。 提前谢谢了。