Tag: 数据分析

如何将文本types持续时间数据转换为Excel中的时间数据格式?

我试图对UFO目击的公开数据做一些分析。 我收集了国家UFO报告中心的数据。 数据如下所示: Date / Time City State Shape Duration Summary Posted 9/29/15 04:00 Wheaton IL Unknown 3 minutes Object hovering for 1 minute, brightly lite and loud. Then moved past slowly. I called FAA to see if they knew what it was, they transf 9/29/15 9/28/15 23:17 Hendersom NV Triangle ~1 minute V-shape/triangle UFO […]

在Excel中排列时间戳数据的两列

我正在试图分析比特币市场价格和Googlesearch趋势之间的关系,比如“比特币”。 对于前者,我使用的是以.CSV格式下载的blockchain.info中find的图表 ; 对于后者,我使用Google趋势数据(在Google趋势页面中search“比特币”),也以.CSV格式下载。 我打算在Excel中对他们进行图示,对他们进行一些math计算等。问题是,Google Trends数据每周logging一次,Blockchain.info数据每天logging一次。 这意味着结果行在第一个数据点之后不排队: 是否有一个快捷方式可以用来分散Google趋势数据,以便每行中的date相匹配(并且存在区块链数据中给定date的数据不存在的空白A行和B行)? 任何和所有帮助非常感谢! 注:我意识到这些数据的分析已经执行过; 我想自己做自己的教育目的。

Excel中不同时期的降雨总和,中位数和平均值

我需要从01/01/1889(dd / mm / yyyy)到18/05/2016取得每月的总和,平均值和中位数。 即从1889 – 2016年的每月1月份降雨量总和为xxxx,中位数为xxxx,平均值为xxxx。 重复其余的几个月。 由于它有1800年的许多function不起作用,并且由于其如此大的数据集1-46526单元filter也不起作用。 请find我的数据如何设置的例子。 我在yyyymmdd的A列中设置了date,F列中的date转换为dd / mm / yyyy格式,降雨量在列G中。

比较Excel中具有相同含义的两个不同的句子

我有两个单元格。 Cell 1 contains this value –> Portfolio Rule Failure (Justification Required): Style Sector Structure: 0.93% for MUNI – SENIOR LIVING breaks the 0.00% maximum failure limit. Style Min Security Rating: NR breaks the BBB- minimum failure limit. Cell 2 contains this value –> Hard Rule Failure (Requires Portfolio Rule Justification to override): Sector Max […]

多个对象一起出现 – 最高次数

我基本上查询join条件在一个正常的oracle数据库日志种类的表。 query_id, join_condition 1 schema1.table1.col1=schema2.table2.col1 1 schema1.table1.col2=schema2.table2.col2 1 schema1.table1.col1=schema2.table3.col1 2 schema1.table1.col1=schema2.table2.col1 2 schema1.table1.col1=schema2.table3.col1 2 schema1.table1.col1=schema3.table3.col1 ……….. ……… ……. 我已经把它吹到这样的excel表中 query_id, left_schema, left_table, left_column, right_schema, right_table, right_schema 1 schema1 table1 col1 schema2 table2 col1 1 schema1 table1 col2 schema2 table2 col2 ……………. ………….. ……… 我想从这些回答下面的问题。 在同一个查询中使用的所有表组合 – 按照它们一起出现的次数sorting。 我已经通过将左表和右表的联合以sorting的顺序格式放入表中并将其分组来解决这个问题。 因此,根据每个查询ID表的数量,可以随机组合2或3或4或5个表名。 现在我的下一个问题是,我如何以sorting顺序查找这些表的所有可能的排列组合。 例如,在查询ID 1中,我们将table1连接到table2,table3。 所以这个查询ID落在3表组合桶中。 而且(table1,table2)和(table1,table3)落在2表组合桶中。 同样可能有4张桌子在一起,5个桌子在一起桶。 […]

WEKA线性回归误差率过高

我正在尝试对一组数据(即书籍)执行线性回归,并使用所有属性预测评分。 下面是我如何格式化我的数据在Excel然后传送文件到CSV在WEKA上传它 Book Author Genre Publisher Year Rating 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 […]

在Excel中自动平均列的列

我必须平均3列的组。 例: Blood_Patient1_0_R1 , Blood_Patient1_0_R2 , Blood_Patient1_0_R3 平均值在一个新的列Blood_Patient1_0 同样, Blood_Patient1_3_5_R1 , Blood_Patient1_3_5_R2 , Blood_Patient1_3_5_R3 平均值在一个新的列Blood_Patient1_3_5 这个过程正在重复8组这样的列。 目前我平均使用公式: IF(ISERROR(AVERAGE(B7:D7)),"",AVERAGE(B7:D7))并自动填充21,000行。 由于列标题中有一个模式,我正在考虑将整个过程自动化。 这就是我迄今为止所认为的algorithm: 0,3_5,6_25是列标题中的时间值。 在每个时刻,有3个重复的R1,R2,R3作为列标题的一部分 对于timearrays[3.5h,6.25h,9.5h,11.5h,16.5h,25h,49h和156h] 创build一个新的列 对于从2到21458行 使用上述公式replicates从R1到R3的平均值 我不知道如何写在Excel中。 任何帮助,将不胜感激。

平面文件分析标准化

我有一个包含家庭效率项目数据的表格。 它包括项目数据,测量数据(如空调,绝缘)和测量属性数据(如数量,品牌名称,型号)。 表中的每一行都是一个单独的度量属性,这意味着所有较less的离散数据(项目和度量)在多行中重复。 我需要分析数据来回答这样的问题:最常见的措施是什么? 一项措施的平均成本是多less? 当我使用Excel 2010数据透视表时,我无法通过独特的项目和度量来分析,因为单个项目/度量被拆分为多个行,当我在数据透视表中求和时,它将会进行双/三重计数(或更多,取决于数量度量属性)。 我的问题:为了通过项目和措施进行分析,是否需要规范化表格并导入数据库,如Access? 还是我没有足够的创造力来安排数据透视表?

导入的Excel文件在大pandas中的MultiIndex问题

我导入了一张Excel文件并在pandasDataFrame中parsing。 path = 'bla.xls' x = pd.ExcelFile(path) sheets = x.sheet_names table = x.parse(sheets[36], header=2) 这似乎工作和DataFrame对象具有预期的MultiIndex指数: In[180]: table.index Out[180]: MultiIndex(levels=[[u'Gesamt', u'Studiengang Hochschulbenennung'], [u'Bekleidungstechnik', u'Betriebswirtschaft', u'Biomedical Engineering', u'Ernährungs- und Hygienetechnik', u'Facility Management', u'Kommunikations- und Softwaretechnik', u'Lebensmittel, Ernährung, Hygiene', u'Maschinenbau', u'Pharmatechnik', u'Systems Engineering', u'Textil- und Bekleidungsmanagement', u'Wirtschaftsinformatik', u'Wirtschaftsingenieurwesen', u'Wirtschaftsingenieurwesen – Produktionsmanagement insbes. Fahrzeugwirtschaft'], [u'% innerhalb von Studiengang Hochschulbenennung', […]

数据分析 – 在Excel中操纵拍卖数据 – VBA

我有一个.csv文件,包含来自eBay拍卖的以下数据: auctionid – 拍卖的唯一标识符 投标时间 – 投标开始的时间(以天计) 投标人 – eBay用户名称 我正试图创build新的variables,以确定任何给定的投标人参与特定拍卖(最后一次投标时间 – 第一次投标时间)以及投标人在该拍卖中投标了多less投标。 换句话说,我需要帮助创build一个VBA脚本,该脚本将循环通过基于“auctionid”的每个拍卖,然后计算这两个variables,如果拍卖中出价者出现了多个出价。 我对如何做这件事感到困惑,但是我知道要做到这一点。 任何帮助将不胜感激!