在SPSS中,将不平衡面板转换为单一条件下的平衡/下降多个观察值

有一个数据集有3个variables – ID工资年份 ,它是一个不平衡的面板。有两个问题:

  1. 我想放弃所有这些有一年没有意见的ID的数据。 不久之后,我想将我的不平衡面板转换成平衡的,每一个ID都会造成这种“不平衡”。

例如,如果一个ID = 1的家伙在2010年没有报告他的工资 (因此2010年和ID = 1没有观察到),我想丢弃所有ID = 1的数据。

这似乎是一个受欢迎的问题,但我在Google和StackOverflow上find的所有解决scheme都是针对Stata的多个解决scheme,而对于SPSS则没有解决scheme。

更新:我设法解决这个问题使用COUNTIF Excel函数。 我创build了一个variables来计算某个ID在数据集中出现的次数,并且保留了这个函数=年数的湮没,从而降低了不平衡的ID 。 但是,我仍然迫切需要解决第二个问题:)

  1. 第二个问题和第一个问题几乎是一样的 – 我想删除所有有这样的ID的数据,当他们报告工资 = 0

例如,如果一个ID = 1的家伙在Year = 2010中报告工资 = 0,我想删除ID = 1的所有数据。

如果在SPSS中有一个填充命令来平衡不平衡面板和缺失值,那么解决第二个问题似乎是解决第一个问题的同时。

更新2:我解决了这个问题以及在工资ID使用COUNTIFS。 Excel是万能的,赞美Excel。

这将解决这两个任务:

recode Wage (0=sysmis). AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=ID /Wage_nmiss=NMISS(Wage). select if Wage_nmiss=0. execute. 

我不知道数据是用来做什么的,但是如果是重要的,你应该认真考虑删除缺lessvariables的观测数据。

通常,特别是在工资数据中,一个缺失值告诉你应该logging的价值(链接到维基百科 ,关键字:MAR,MCAR,MNAR))。 在样本中没有简单的方法来摆脱这种偏见,但是简单地删除观察并不是一个严肃的select。 有一些algorithm可以根据数据集中的其他值巧妙地计算缺失值。

如果你愿意的话,我可以多投入一些时间,帮助你find一个合适的algorithm来计算缺失值。