R的Excel虚拟variables

我希望这个问题不是题外话。 我知道如何在R中编写一个虚拟variables,但是,我想知道是否可以在Excel中创build它。 比方说,我有一个颜色variables下的3种颜色(红色,蓝色,黄色)列表。 R会把这个作为一个3级的因素导入。

现在,如果我想在Excel中做到这一点,我可以做出3个新的预测variables(而不是颜色,他们现在变成红色,蓝色和黄色),如果它是红色的,红色的列中放置1,否则为0,等等? 或者R会继续把这个解释为3个单独的因素,每个都有2个等级?

所以你在Excel中手动创build三个虚拟列,并且想要将它们导入到R? 如果您稍后将这些列导入为数字而不是因子,则不会有任何问题。

那么,我还是要提醒你R可以通过model.matrix()因子编码为虚拟variables。 所以从来没有必要自己做这件事。 在excel中使用“红色”,“蓝色”和“黄色”的单个列是绝对可以的,并将其导出到R中作为因子。

 colour <- gl(3,2,labels=c("red","blue","yellow")) model.matrix(~ colour - 1) # colourred colourblue colouryellow #1 1 0 0 #2 1 0 0 #3 0 1 0 #4 0 1 0 #5 0 0 1 #6 0 0 1 

还有一个简单的问题。 使用model.matrix作为因子颜色和其他因子variables – 我怎样才能将它融入到我的模型中? 当我调用线性模型(例如) lm(response ~ predictor.1 + predictor.2 + colour)时,它会自动调用虚拟variables,还是需要将model.matrix赋值给一个向量?

model.matrix是一个服务程序,用于像lmglm等模型拟合程序。用户可以简单地使用一个公式,然后在场景后面build立模型matrix。 所以,你甚至不需要自己获得一个模型matrix。

对于高级用户,有时他可能想要使用内部assembly例程lm.fit甚至是.lm.fit 。 阅读这些例程。 这些例程不接受模型公式,而是模型matrixX和响应向量y 。 在这种情况下,用户完全有责任自己生成Xy