Tag: 统计

Python：打开现有的Excel文件并在表格中统计行数: 我有一个现有的Excel文件。我想加载一个，并得到这张表中的行数，稍后写在这张表的下一行并再次保存。我收到以下错误消息： AttributeError: 'Worksheet' object has no attribute 'nrows' 但显然这种方法存在，因为每个人都在用它来计数。我写的代码如下所示： def write_xls_result(test_case): testCase = re.sub("/", "_", test_case) automation_report = os.path.expanduser("~/Library/pathtofile/UITests.xctest/Contents/Resources/Automation_Result.xls") if os.path.isfile(automation_report): w = copy(open_workbook(automation_report)) copy_sheet = w.get_sheet(0) col_width = 256 * 30 try: for i in itertools.count(): copy_sheet.col(i).width = col_width except ValueError: pass for row in range(copy_sheet.nrows): print '{} {}'.format("Row COUNT",copy_sheet.nrows) row_index […]

条件TRIMMEAN: 我试图通过排除exception值来计算平均值。我发现TRIMMEAN。数据集实际上是某个系统中一段代码执行时间的logging。列：答：执行时间 B：代码是否完成 C：所讨论的实际方法/function（其他各种方法也是定时的）以下公式决定了完成，处理执行时间的平均值。 =AVERAGEIFS(A1:A1000, B1:B1000, "=Complete", C1:C1000, "=Process") 现在我也想根据上述条件来计算TRIMMEAN。我怎样才能做到这一点？我正在使用Excel 2010。

Excel / Pentaho加倍计数: 我有一些问题处理Excel和pentaho（我想是由于我的经验与这些工具…）。有以下数据集： Interaction date interaction_name 21/08/13 course view 21/08/13 course view 21/08/13 forum view forum 21/08/13 course view 21/08/13 course view 21/08/13 course view 22/08/13 forum view forum 22/08/13 course view 22/08/13 forum view forum 22/08/13 user view all 22/08/13 user view 22/08/13 blog view 22/08/13 user view all 我想表示，在2013年8月21日，有4个课程视图和1个论坛视图，2013年8月22日2个论坛视图，1个课程视图，3个用户查看所有…等等。那就是（从SQL的angular度来看）一种双计数的一种。第一组按date，然后通过交互进行分组并统计它们。正确的SQL查询也可以帮助我。我只是不知道如何做到这一点。我尝试用excel和pentaho，但似乎我失去了一些东西… […]

我们如何在MS Excel中执行常用集合操作（union，intersection，minus）？: 例如，我有一个xls在哪里：列A具有属性A的项目列表 B列有物品B的列表我需要以下内容：列C是A联盟B（A和B的独特项目） D列是交集B（A＆B的共同项目） E栏是A减B（A项而不是B项） B列减A列（B列不列A列）使用SQL或Python对元素列表进行操作似乎很容易。但如何在xls中做到这一点？注意：它应该是一个自动化，最小的复制粘贴和点击。例如，我不想在B下复制粘贴A，然后“消除重复”以获得A联合B.

在C＃中的WorksheetFunction.Quartile等效: 我们目前正在做一个MS-Access到.Net的网页项目。在MS-Access VBA代码中，他们使用了“WorksheetFunction.Quartile”function。请让我知道C＃中的等效函数。 VBA中的示例用法： Q1 = WorksheetFunction.Quartile（arrY，1）

计算分箱列表中的标准偏差: 说我有一个整数值的列表， 1到10 。而不是有实际的数据集，我只是有每个值的数量。例如： 1 | 73 2 | 121 3 | 155 4 | 149 5 | 187 6 | 180 7 | 166 8 | 148 9 | 120 10 | 81 正如你所看到的，单独列出每个值（73 1 s，121 2等等）是非常耗时的，但这是我知道如何使用STDEV（）的唯一方法。我如何计算值的标准差？

SPSS：按特定顺序出现过滤数据集: 背景：我有一个包含主要机构/公司的财务信息的大型数据集（> 100000条目）。有几个栏目包含会计年度（第1列），公司名称（第5列），董事姓名（第6列），年收入（第11列）等信息。理想情况下，每个公司应包括其财务信息从1996年到2006年这个数据集。然而，许多公司缺less一年或多年的信息，因此应该排除在进一步的分析之外。这是我的数据集的屏幕截图： BoardCharacteristics 正如你所看到的，这个快照中包含的许多公司没有提供1996 – 2006年财政年度的完整信息。目标：第一步是过滤这个数据集，只有在整个时间范围内（即从1996年到2006年）才提供信息的公司才被纳入后续分析。由于所提供的信息理想情况下应该至less等于每个公司11行（即1996 – 2006年），而且许多公司每个财政年度都包含一个以上董事姓名，我最初的想法是指定一个filter，只select行（从1996年开始到2006年结束），并按顺序对整个数据集执行此操作，同时省略不完整的序列（例如2001年至2006年的A公司缺失）或其间的任何内容。然而，由于序列长度的不一致性和序列组成的可变性，select任何从1996开始到2006年结束的序列的简单/刚性滤波器是不够的。我知道有几个并发症：并不是每一个完整的序列都由11行组成，因为许多公司在每个财政年度中包含多个董事姓名（例如，2001财年的总监名字为3，这家公司的总行数超过13行）公司之间的潜在序列重叠[例如，公司A提供了1996年至1999年; B公司（紧接A公司之后）2000年到2006年 – >这将导致从1996年到2006年，包括A公司和B公司（这是不可取的）我已经尝试了几个函数，包括范围函数的filter： RANGE(exp,low,high) –> RANGE(year,1996,2006) 正如所料，这没有奏效。我也尝试在Excel中过滤这个数据集，但无济于事。虽然我怀疑是否有单一的function来解决这个问题，但我还没有得到任何有用的语法来解决这个问题。因此，我非常感谢一些意见。如果对我的问题陈述有任何不清楚的地方，请随时提出。

将值列表转换为-1和1之间: 我有许多不同格式的问卷调查问卷。我希望范围在-1和1之间。但是，并不是所有的范围都包含负数。我需要创build一个Excel公式将值转换为以下依赖范围。 +—+——–+ | A |To this | +—+——–+ |-3 | -1 | |-2 | -0.66 | |-1 | -0.33 | | 0 | 0 | | 1 | 1 | +—+——–+ 要么 +—+——–+ | A |To this | +—+——–+ | 0 | 0 | | 1 | 0.25 | | 2 | 0.5 […]

将一行数据分解为多行: 下午好！我在使用我的数据集时遇到了一些麻烦。我正在使用Google AdWords导出进行数据分析，我想将logit回归模型拟合到数据中，以确定我进行的实验是否影响转换。问题在于数据被汇总并且能够执行logit回归，因variables需要是二进制的。所以，我想要10个数据点，其中有5点击，其中2个已经转换，而不是有一个数据点（例如）10次展示，5次点击和2次转换。所以我想从一个看起来像这样的数据框（非常简单） | Keyword | Impressions | Clicks | Conversions | | SampleName | 10 | 5 | 2 | 对此： | Keyword | Clicked | Converted | | SampleName | 1 | 1 | | SampleName | 1 | 1 | | SampleName | 1 | 0 | | […]

从特定数字（本福特定律）开始计数事件: 我在Excel中有一张桌子，里面有所有的国家和相关的人口数量。我想统计这个数字从1开始，然后是2，… 9.这是关于本福德定律，用于学校作业。我尝试过使用NB.SI或COUNTIF，但他们没有工作。我甚至试图把数字转换成文本，但NB.SI没有更好的工作。你有什么主意吗？