Tag: 统计

标准化/缩放数据集: 我有以下数据集： dat<-as.data.frame(rbind(10,8,2,7,10,10,1,10,14,9,2,6,10,8,10,8,10,10,7,11,10)) colnames(dat)<-"Score" print(dat) Score 10 8 2 7 10 10 1 10 14 9 2 6 10 8 10 8 10 10 7 11 10 这些是学生获得的考试成绩，在这个testing中学生可以得到最多15或最小0 （顺便说一下，没有人得到最大或最小），但是在这个testing中得到的最低分数是1和最高的是14 。现在，我想规范化/规模这个数据的规模0至20.如何在Excel中实现这一点？或在R？我的最终目标是把这个testing中的分数归一化到上面的规模，并将它们与另一组数据分别进行比较，最大值和最小值分别是5和0。如何正确比较这两个不同的缩放数据集？我试过的东西：我在互联网上经历了很多东西，然后想出了这个：我从维基百科获得它。这个方法可靠吗？

Excel VBA – build立一个函数来突出显示超出字符数限制的单元格: 我有一个Excel表中有一个字符限制的列。我希望能够按下一个Active X Commandbutton，并使该function突出显示所有超出字符数限制的单元格。例如，如果字符数限制为3，名称标记将突出显示，但名称乔不会。任何人都知道如何去做这个？这是我现在所拥有的，但不起作用。我是全新的。 Private Sub CommandButton1_Click() For i = 2 To 5 If Len(Cells(i, 1).Value) > 2 Then Cells(1, 1).Interior.ColorIndex = 200 End If Next i 结束小组

标准误差和标准差的区别？: 我有2个样本。对于每个我根据时间计算一些对象。我在y轴上绘制对象的数量，在x轴上绘制小时的时间。在Excel中，我有一个选项来绘制错误栏，使用标准偏差或标准错误。我想知道它们之间有什么区别，如果标准误差足以显示我的两个样本的数据是显着的？即使在互联网上阅读了一些定义之后，作为统计学的新手，我仍然很困惑。这是我的graphics，通过绘制标准错误，这是它给。可能不足以判断我的数据的重要性吗？

在Java（或Visual Basic）中使用Apache POI在Excel中绘制和计算渐近线: 我在Java中使用Apache POI来处理Excel中的数据（还有我不太熟悉的Visual Basic）。我有以下的问题，我想通过i）用Java或VBA写一个方法ii）使用任何一种语言的库函数（如果存在的话）iii）直接在Excel中解决这个问题。问题描述：我在Excel中有一个图表（实际上是大量的），它似乎绘制了一个水平渐近线的数据。我认为这是最简单的，如果我用一张图片来说明：我使用的这些数据与我正在使用的数据类似 y – x 1 0.8232 2 0.6032 3 0.5012 4 0.4646 5 0.45001 6 0.44981 正如你所看到的，有一个平行于x轴的渐近线，但是数据来自复杂的现实生活来源（与math公式相反），所以计算并不简单。 find渐近线的公式和/或在图表上绘制它的最好方法是什么？虽然我已经学会了一些统计数据，但我不确定如何从数据点中find渐近线，所以我会很乐意提供任何帮助。

计算二进制信号频率和持续时间: 我正试图分析一些在120Hz采集的信号数据。我有Excel和SPSS（以及MATLAB，但我不太熟悉）。我一直在网上search大约一小时半，似乎无法find我在找什么，但我知道它应该是相对简单的。我有一个0和1的列表。我想计算每个信号的持续时间，然后绘制信号的频率分布（即，一个直方图描绘信号百分比@ 1/10秒，信号百分比@ 2/10秒，@ 3/10秒… @ 1秒等等）。我相信这是一个反向累积分布我正在寻找，但在我可以做到这一点之前，我需要处理我的电子表格中的数据。我很难找出如何总结每个“组”来获得每个信号的持续时间。它会做这样的事情：对于包含1的单元格，如果上面的单元格包含0，则会启动一个新的总和并继续总计1，直到出现0。在电子表格的末尾，我会列出信号持续时间（以秒的1/120来表示 – 即，30将是0.25秒）我有超过100个文件要处理，所以我正在寻找一个公式或macros来快速为每个文件做这件事。我有4个不同的设备的数据，我期待比较这些信号分布的设备。在excel，spps或matlab中，我会做得更好吗？谢谢！数据被格式化为列 – 我在A列的帧数和B列的信号（0或1）。每个帧是1/120秒（我有每个文件数千帧）。我对波形本身并不感兴趣 – 为了统计目的，我正在这样做，以检测长条信号与短信号的分布在条件之间是否有显着差异。最终，我想要一个可以在频率直方图中表示的信号长度的列表（并且按频率，我不是指波的频率，而是指出现的次数。

python gamma.fit返回值似乎不正确分布在Excel中: 我有一系列用于产生散点图的实验数据值X和Y ，这个散点图看起来与伽玛分布非常相似，我已经读过文章说这个实验数据可以使用伽马分布表示/build模。所以我写了下面一些python代码来查找gamma分布常量： import csv import random import scipy as sp import scipy.stats as ss from collections import defaultdict columns = defaultdict(list) with open('case_1_RTD.csv') as f: reader=csv.reader(f) reader.next() for row in reader: for(i,v) in enumerate(row): columns[i].append(v) X=(columns[0]) Y=(columns[1]) data=[float(i) for i in Y] alpha= [] beta=[] loc=[] alpha,loc,beta=ss.gamma.fit(data, floc=0) print (alpha,loc,beta) 然后，我使用这个输出在Excel中生成伽马分布，并将这个新的Gamma分布数据与原始的X，Y数据进行比较。数据值的集合根本不是一个类似的东西。在Excel中，我使用该function =Gamma.Dist(X,alpha,beta,False) […]

重新编码R中的variables时出错: 我已经从Excel导入一个文件，导入后有以下str str(mydata) $ Injury : chr "MMCAI" "MMCAI" "MMCAI" "MMCAI" … $ Na_RR : num 161 152 152 150 143 … $ place : chr "core" "core" "core" "core" … 现在我想要创build5个不同的组合“损伤”和“地点”我有这个代码的组 mydata$group[mydata$Injury=="MMCAI" & mydata$place=="core"]<- "IC" 但是，在通过代码后，我得到了分类为NA的观察值，即： 231 core MMCAI 138.8168 3.253879 core IC 232 core MMCAI 142.7655 3.096850 core NA 233 core MMCAI 141.1135 3.066894 […]

标准化线图以更好地显示随时间的微小变化: 我有一个线条图，描绘了我的工作场所的人数。我们想创build一个线条图来描绘离开和join公司的人的趋势，但是我们已经注意到，有一些我们已经知道的，每年都在期待的趋势，并且不希望它反映在图中，因为它掩盖真实的人们离开和进来。我们注意到的人是夏季来临的实习生，每年有大约100名实习生。我想以某种方式“正常化”我的图表，以便大量的实习生进来不会造成高峰，他们离开不会引起大的下滑。我想捕捉的尖峰和涟漪是人们辞职/退休，人们被雇用。我怎么去做这个？（我正在使用Excel生成这些图表）

在Excel中计算数据条件可能有所不同: 我正在执教一支步枪射击小组，我正在devise一个程序来分析数据，所有需要的数据都存储在excel中的一个大的非规范化的表格中。我希望能够计算每个射手的统计数据，如平均分，最高分，标准差等。我的总结表还需要一些variables来过滤数据，比如一天中的哪一天，哪一天的时间，远距离射击，一年。我试图devise自己的function，如 Public Function AveScore(ShooterID As String, YearShot As Integer, Optional Day As String = "All Year", Optional TimeOfDay As String = "All Day", Optional Distance As String = "All", Optional OutOf As Integer = 40, Optional TopShots As Integer = 0, Optional AdjOutOf As Boolean = True) As Double 这样我就可以轻松地在我的床单上打电话，让我轻松调整我的格式。然而，由于filter的性质，他们有时会过滤一些数据和其他时间，我希望在这些领域的所有数据。每个filter对应于表中的一个字段。我发现使用循环来计算结果的结果是许多压倒性的陈述，这是不切实际的，因为我必须考虑到需要某些条件时的每种可能性 […]

Excel / VBA中的大型数据集的多条件统计（平均值，标准差，z值）: 我正在计算Excel上的大数据集的统计信息，并且由于数据集大小而遇到一些问题。看来VBA可能是要走的路，因为在数据上复制AVERAGEIF和STDDEV数组函数这个大小造成了很长的计算时间。欣赏可能在这里使用的解决scheme或代码。目标：要计算2个标识符（例如01/01/10的所有高度的平均值）的统计数据（avg，std dev，z-scores）能够处理大数据集（100k +数据点）样本数据： Date | User ID | Indicator | Data Point 01/01/10| 1 | Height | 150 01/01/10| 1 | Weight | 123 01/01/10| 2 | Height | 146 01/01/10| 2 | Weight | 123 01/02/10| 1 | Height | 156 01/02/10| 1 | Weight | 160 01/02/10| […]