制表符分隔的数据集中拼写的统计描述

我试图在Excel中编写一个macros,以制表符分隔格式(特别是一组Tweets)来查找自然语言文本数据集中的拼写错误的平均值和标准偏差。 我可以很容易地findWord中的平均值,方法是通过按CTRL + F来获取消息的数量,然后查看SpellCheck中列出的错误总数。 这虽然对SD没有帮助。 据我所知,专门build立的语言分析软件不能search一般的非词汇,而不计算不stream畅的东西(“呃”,“ach”)。

我无法弄清楚如何在Excelmacros中包含拼写和语法错误,或者如何按单元格拆分它们。

数据集足够大,我不介意小的不准确(他们不应该在条件之间系统地变化)。

这个工具可以调整,以评估基本的写作技巧,或者比较足够大的文字样本中英语的非标准使用。 任何帮助表示赞赏。

由于Word具有检测拼写和语法错误的内置function,因此您可以在Excel中创build一个跨程序脚本​​。 你只要让Word做语言处理,Excel做统计分析。 您需要从Excel VBE的“工具”>“引用”菜单中启用Microsoft Word 15.0对象库。

Word中的VBA允许您检测是否有拼写错误。 看到这个链接:

https://msdn.microsoft.com/en-us/library/office/aa171830(v=office.11​​).aspx

代码背后的逻辑是:

  1. 从Excel,打开一个新的Word文档。
  2. 对于每个Tweet,复制单元格的内容并粘贴到空白Word文档中。
  3. 让Word扫描文档中的错误,如果检测到则返回True,否则返回False。
  4. 在Excel中,如果获得True值,则在推文旁边插入1,如果为False,则插入2。
  5. 清除Word文档中的所有内容。
  6. 转到Excel中的下一个推文(下一个单元格),并执行步骤2-6,直到每个推文旁边都有1或2个推文。

您应该能够将语言错误的发生与其他variables相关联,例如Twitter句柄。

从本质上讲,每个程序都要做到最好。