Tag: 统计

标准化/缩放数据集

我有以下数据集: dat<-as.data.frame(rbind(10,8,2,7,10,10,1,10,14,9,2,6,10,8,10,8,10,10,7,11,10)) colnames(dat)<-"Score" print(dat) Score 10 8 2 7 10 10 1 10 14 9 2 6 10 8 10 8 10 10 7 11 10 这些是学生获得的考试成绩, 在这个testing中学生可以得到最多15或最小0 (顺便说一下,没有人得到最大或最小), 但是在这个testing中得到的最低分数是1和最高的是14 。 现在,我想规范化/规模这个数据的规模0至20.如何在Excel中实现这一点? 或在R? 我的最终目标是把这个testing中的分数归一化到上面的规模,并将它们与另一组数据分别进行比较,最大值和最小值分别是5和0。 如何正确比较这两个不同的缩放数据集? 我试过的东西:我在互联网上经历了很多东西,然后想出了这个: 我从维基百科获得它。 这个方法可靠吗?

Excel VBA – build立一个函数来突出显示超出字符数限制的单元格

我有一个Excel表中有一个字符限制的列。 我希望能够按下一个Active X Commandbutton,并使该function突出显示所有超出字符数限制的单元格。 例如,如果字符数限制为3,名称标记将突出显示,但名称乔不会。 任何人都知道如何去做这个? 这是我现在所拥有的,但不起作用。 我是全新的。 Private Sub CommandButton1_Click() For i = 2 To 5 If Len(Cells(i, 1).Value) > 2 Then Cells(1, 1).Interior.ColorIndex = 200 End If Next i 结束小组

标准误差和标准差的区别?

我有2个样本。 对于每个我根据时间计算一些对象。 我在y轴上绘制对象的数量,在x轴上绘制小时的时间。 在Excel中,我有一个选项来绘制错误栏,使用标准偏差或标准错误。 我想知道它们之间有什么区别,如果标准误差足以显示我的两个样本的数据是显着的? 即使在互联网上阅读了一些定义之后,作为统计学的新手,我仍然很困惑。 这是我的graphics,通过绘制标准错误,这是它给。 可能不足以判断我的数据的重要性吗?

在Java(或Visual Basic)中使用Apache POI在Excel中绘制和计算渐近线

我在Java中使用Apache POI来处理Excel中的数据(还有我不太熟悉的Visual Basic)。 我有以下的问题,我想通过i)用Java或VBA写一个方法ii)使用任何一种语言的库函数(如果存在的话)iii)直接在Excel中解决这个问题。 问题描述:我在Excel中有一个图表(实际上是大量的),它似乎绘制了一个水平渐近线的数据。 我认为这是最简单的,如果我用一张图片来说明: 我使用的这些数据与我正在使用的数据类似 y – x 1 0.8232 2 0.6032 3 0.5012 4 0.4646 5 0.45001 6 0.44981 正如你所看到的,有一个平行于x轴的渐近线,但是数据来自复杂的现实生活来源(与math公式相反),所以计算并不简单。 find渐近线的公式和/或在图表上绘制它的最好方法是什么? 虽然我已经学会了一些统计数据,但我不确定如何从数据点中find渐近线,所以我会很乐意提供任何帮助。

计算二进制信号频率和持续时间

我正试图分析一些在120Hz采集的信号数据。 我有Excel和SPSS(以及MATLAB,但我不太熟悉)。 我一直在网上search大约一小时半,似乎无法find我在找什么,但我知道它应该是相对简单的。 我有一个0和1的列表。 我想计算每个信号的持续时间,然后绘制信号的频率分布(即,一个直方图描绘信号百分比@ 1/10秒,信号百分比@ 2/10秒,@ 3/10秒… @ 1秒等等)。 我相信这是一个反向累积分布我正在寻找,但在我可以做到这一点之前,我需要处理我的电子表格中的数据。 我很难找出如何总结每个“组”来获得每个信号的持续时间。 它会做这样的事情:对于包含1的单元格,如果上面的单元格包含0,则会启动一个新的总和并继续总计1,直到出现0。 在电子表格的末尾,我会列出信号持续时间(以秒的1/120来表示 – 即,30将是0.25秒) 我有超过100个文件要处理,所以我正在寻找一个公式或macros来快速为每个文件做这件事。 我有4个不同的设备的数据,我期待比较这些信号分布的设备。 在excel,spps或matlab中,我会做得更好吗? 谢谢! 数据被格式化为列 – 我在A列的帧数和B列的信号(0或1)。 每个帧是1/120秒(我有每个文件数千帧)。 我对波形本身并不感兴趣 – 为了统计目的,我正在这样做,以检测长条信号与短信号的分布在条件之间是否有显着差异。 最终,我想要一个可以在频率直方图中表示的信号长度的列表(并且按频率,我不是指波的频率,而是指出现的次数。

python gamma.fit返回值似乎不正确分布在Excel中

我有一系列用于产生散点图的实验数据值X和Y ,这个散点图看起来与伽玛分布非常相似,我已经读过文章说这个实验数据可以使用伽马分布表示/build模。 所以我写了下面一些python代码来查找gamma分布常量: import csv import random import scipy as sp import scipy.stats as ss from collections import defaultdict columns = defaultdict(list) with open('case_1_RTD.csv') as f: reader=csv.reader(f) reader.next() for row in reader: for(i,v) in enumerate(row): columns[i].append(v) X=(columns[0]) Y=(columns[1]) data=[float(i) for i in Y] alpha= [] beta=[] loc=[] alpha,loc,beta=ss.gamma.fit(data, floc=0) print (alpha,loc,beta) 然后,我使用这个输出在Excel中生成伽马分布,并将这个新的Gamma分布数据与原始的X,Y数据进行比较。 数据值的集合根本不是一个类似的东西。 在Excel中,我使用该function =Gamma.Dist(X,alpha,beta,False) […]

重新编码R中的variables时出错

我已经从Excel导入一个文件,导入后有以下str str(mydata) $ Injury : chr "MMCAI" "MMCAI" "MMCAI" "MMCAI" … $ Na_RR : num 161 152 152 150 143 … $ place : chr "core" "core" "core" "core" … 现在我想要创build5个不同的组合“损伤”和“地点”我有这个代码的组 mydata$group[mydata$Injury=="MMCAI" & mydata$place=="core"]<- "IC" 但是,在通过代码后,我得到了分类为NA的观察值,即: 231 core MMCAI 138.8168 3.253879 core IC 232 core MMCAI 142.7655 3.096850 core NA 233 core MMCAI 141.1135 3.066894 […]

标准化线图以更好地显示随时间的微小变化

我有一个线条图,描绘了我的工作场所的人数。 我们想创build一个线条图来描绘离开和join公司的人的趋势,但是我们已经注意到,有一些我们已经知道的,每年都在期待的趋势,并且不希望它反映在图中,因为它掩盖真实的人们离开和进来。我们注意到的人是夏季来临的实习生,每年有大约100名实习生。 我想以某种方式“正常化”我的图表,以便大量的实习生进来不会造成高峰,他们离开不会引起大的下滑。 我想捕捉的尖峰和涟漪是人们辞职/退休,人们被雇用。 我怎么去做这个? (我正在使用Excel生成这些图表)

在Excel中计算数据条件可能有所不同

我正在执教一支步枪射击小组,我正在devise一个程序来分析数据,所有需要的数据都存储在excel中的一个大的非规范化的表格中。 我希望能够计算每个射手的统计数据,如平均分,最高分,标准差等。我的总结表还需要一些variables来过滤数据,比如一天中的哪一天,哪一天的时间,远距离射击,一年。 我试图devise自己的function,如 Public Function AveScore(ShooterID As String, YearShot As Integer, Optional Day As String = "All Year", Optional TimeOfDay As String = "All Day", Optional Distance As String = "All", Optional OutOf As Integer = 40, Optional TopShots As Integer = 0, Optional AdjOutOf As Boolean = True) As Double 这样我就可以轻松地在我的床单上打电话,让我轻松调整我的格式。 然而,由于filter的性质,他们有时会过滤一些数据和其他时间,我希望在这些领域的所有数据。 每个filter对应于表中的一个字段。 我发现使用循环来计算结果的结果是许多压倒性的陈述,这是不切实际的,因为我必须考虑到需要某些条件时的每种可能性 […]

Excel / VBA中的大型数据集的多条件统计(平均值,标准差,z值)

我正在计算Excel上的大数据集的统计信息,并且由于数据集大小而遇到一些问题。 看来VBA可能是要走的路,因为在数据上复制AVERAGEIF和STDDEV数组函数这个大小造成了很长的计算时间。 欣赏可能在这里使用的解决scheme或代码。 目标: 要计算2个标识符(例如01/01/10的所有高度的平均值)的统计数据(avg,std dev,z-scores) 能够处理大数据集(100k +数据点) 样本数据: Date | User ID | Indicator | Data Point 01/01/10| 1 | Height | 150 01/01/10| 1 | Weight | 123 01/01/10| 2 | Height | 146 01/01/10| 2 | Weight | 123 01/02/10| 1 | Height | 156 01/02/10| 1 | Weight | 160 01/02/10| […]