Tag: 统计

Python:打开现有的Excel文件并在表格中统计行数

我有一个现有的Excel文件。 我想加载一个,并得到这张表中的行数,稍后写在这张表的下一行并再次保存。 我收到以下错误消息: AttributeError: 'Worksheet' object has no attribute 'nrows' 但显然这种方法存在,因为每个人都在用它来计数。 我写的代码如下所示: def write_xls_result(test_case): testCase = re.sub("/", "_", test_case) automation_report = os.path.expanduser("~/Library/pathtofile/UITests.xctest/Contents/Resources/Automation_Result.xls") if os.path.isfile(automation_report): w = copy(open_workbook(automation_report)) copy_sheet = w.get_sheet(0) col_width = 256 * 30 try: for i in itertools.count(): copy_sheet.col(i).width = col_width except ValueError: pass for row in range(copy_sheet.nrows): print '{} {}'.format("Row COUNT",copy_sheet.nrows) row_index […]

条件TRIMMEAN

我试图通过排除exception值来计算平均值。 我发现TRIMMEAN。 数据集实际上是某个系统中一段代码执行时间的logging。 列: 答:执行时间 B:代码是否完成 C:所讨论的实际方法/function(其他各种方法也是定时的) 以下公式决定了完成 , 处理执行时间的平均值。 =AVERAGEIFS(A1:A1000, B1:B1000, "=Complete", C1:C1000, "=Process") 现在我也想根据上述条件来计算TRIMMEAN。 我怎样才能做到这一点? 我正在使用Excel 2010。

Excel / Pentaho加倍计数

我有一些问题处理Excel和pentaho(我想是由于我的经验与这些工具…)。 有以下数据集: Interaction date interaction_name 21/08/13 course view 21/08/13 course view 21/08/13 forum view forum 21/08/13 course view 21/08/13 course view 21/08/13 course view 22/08/13 forum view forum 22/08/13 course view 22/08/13 forum view forum 22/08/13 user view all 22/08/13 user view 22/08/13 blog view 22/08/13 user view all 我想表示,在2013年8月21日,有4个课程视图和1个论坛视图,2013年8月22日2个论坛视图,1个课程视图,3个用户查看所有…等等。 那就是(从SQL的angular度来看)一种双计数的一种。 第一组按date,然后通过交互进行分组并统计它们。 正确的SQL查询也可以帮助我。 我只是不知道如何做到这一点。 我尝试用excel和pentaho,但似乎我失去了一些东西… […]

我们如何在MS Excel中执行常用集合操作(​​union,intersection,minus)?

例如,我有一个xls在哪里: 列A具有属性A的项目列表 B列有物品B的列表 我需要以下内容: 列C是A联盟B(A和B的独特项目) D列是交集B(A&B的共同项目) E栏是A减B(A项而不是B项) B列减A列(B列不列A列) 使用SQL或Python对元素列表进行操作似乎很容易。 但如何在xls中做到这一点? 注意:它应该是一个自动化,最小的复制粘贴和点击。 例如,我不想在B下复制粘贴A,然后“消除重复”以获得A联合B.

在C#中的WorksheetFunction.Quartile等效

我们目前正在做一个MS-Access到.Net的网页项目。 在MS-Access VBA代码中,他们使用了“WorksheetFunction.Quartile”function。 请让我知道C#中的等效函数。 VBA中的示例用法: Q1 = WorksheetFunction.Quartile(arrY,1)

计算分箱列表中的标准偏差

说我有一个整数值的列表, 1到10 。 而不是有实际的数据集,我只是有每个值的数量。 例如: 1 | 73 2 | 121 3 | 155 4 | 149 5 | 187 6 | 180 7 | 166 8 | 148 9 | 120 10 | 81 正如你所看到的,单独列出每个值(73 1 s,121 2等等)是非常耗时的,但这是我知道如何使用STDEV()的唯一方法。 我如何计算值的标准差?

SPSS:按特定顺序出现过滤数据集

背景:我有一个包含主要机构/公司的财务信息的大型数据集(> 100000条目)。 有几个栏目包含会计年度(第1列),公司名称(第5列),董事姓名(第6列),年收入(第11列)等信息。理想情况下,每个公司应包括其财务信息从1996年到2006年这个数据集。 然而,许多公司缺less一年或多年的信息,因此应该排除在进一步的分析之外。 这是我的数据集的屏幕截图: BoardCharacteristics 正如你所看到的,这个快照中包含的许多公司没有提供1996 – 2006年财政年度的完整信息。 目标:第一步是过滤这个数据集,只有在整个时间范围内(即从1996年到2006年)才提供信息的公司才被纳入后续分析。 由于所提供的信息理想情况下应该至less等于每个公司11行(即1996 – 2006年),而且许多公司每个财政年度都包含一个以上董事姓名,我最初的想法是指定一个filter,只select行(从1996年开始到2006年结束),并按顺序对整个数据集执行此操作,同时省略不完整的序列(例如2001年至2006年的A公司缺失)或其间的任何内容。 然而,由于序列长度的不一致性和序列组成的可变性,select任何从1996开始到2006年结束的序列的简单/刚性滤波器是不够的。 我知道有几个并发症: 并不是每一个完整的序列都由11行组成,因为许多公司在每个财政年度中包含多个董事姓名(例如,2001财年的总监名字为3,这家公司的总行数超过13行) 公司之间的潜在序列重叠[例如,公司A提供了1996年至1999年; B公司(紧接A公司之后)2000年到2006年 – >这将导致从1996年到2006年,包括A公司和B公司(这是不可取的) 我已经尝试了几个函数,包括范围函数的filter: RANGE(exp,low,high) –> RANGE(year,1996,2006) 正如所料,这没有奏效。 我也尝试在Excel中过滤这个数据集,但无济于事。 虽然我怀疑是否有单一的function来解决这个问题,但我还没有得到任何有用的语法来解决这个问题。 因此,我非常感谢一些意见。 如果对我的问题陈述有任何不清楚的地方,请随时提出。

将值列表转换为-1和1之间

我有许多不同格式的问卷调查问卷。 我希望范围在-1和1之间。但是,并不是所有的范围都包含负数。 我需要创build一个Excel公式将值转换为以下依赖范围。 +—+——–+ | A |To this | +—+——–+ |-3 | -1 | |-2 | -0.66 | |-1 | -0.33 | | 0 | 0 | | 1 | 1 | +—+——–+ 要么 +—+——–+ | A |To this | +—+——–+ | 0 | 0 | | 1 | 0.25 | | 2 | 0.5 […]

将一行数据分解为多行

下午好! 我在使用我的数据集时遇到了一些麻烦。 我正在使用Google AdWords导出进行数据分析,我想将logit回归模型拟合到数据中,以确定我进行的实验是否影响转换。 问题在于数据被汇总并且能够执行logit回归,因variables需要是二进制的。 所以,我想要10个数据点,其中有5点击,其中2个已经转换,而不是有一个数据点(例如)10次展示,5次点击和2次转换。 所以我想从一个看起来像这样的数据框(非常简单) | Keyword | Impressions | Clicks | Conversions | | SampleName | 10 | 5 | 2 | 对此: | Keyword | Clicked | Converted | | SampleName | 1 | 1 | | SampleName | 1 | 1 | | SampleName | 1 | 0 | | […]

从特定数字(本福特定律)开始计数事件

我在Excel中有一张桌子,里面有所有的国家和相关的人口数量。 我想统计这个数字从1开始,然后是2,… 9.这是关于本福德定律 ,用于学校作业。 我尝试过使用NB.SI或COUNTIF,但他们没有工作。 我甚至试图把数字转换成文本,但NB.SI没有更好的工作。 你有什么主意吗?