CSV格式的数据操作:为什么使用python脚本代替MS Excel函数?

我目前正在以csv格式处理大型数据集。 在某些情况下,使用Excel函数来完成工作会更快。 不过,我想编写python脚本来读/写csv并执行所需的function。 在哪些情况下,Python脚本会比使用Excel函数处理数据操作任务更好? 长期的优势是什么?

build议在以下情况下使用python:

  1. 重复操作:对类似的数据集重复执行类似的操作。 例如,假设您获得每月的预测数据,您必须执行各种切片和切块和绘图。 这里的数据结构和分析步骤差不多,但数据每个月都不一样。 使用Python和Pandas可以为您节省大量时间,同时减less手动错误。
  2. 探索性分析:一旦你对Pandas,Numpy和Matplotlib有了一定的了解,使用这些python库的分析比Excel分析更快,效率更高。 一个简单的用例来certificate这个说法是回溯。 使用pandas,您可以快速回溯并重新获得数据集的原始forms或更早的分析forms。 有了Excel,你可能会在分析迷宫后迷失方向,并且可能会失去一个早期的forms
  3. 教学工具:在我看来,这是最未被充分利用的function。 IPython笔记本可以成为数据分析的优秀教学工具和参考文档。 利用这一点,您可以高效地在同事之间传递知识,而不是共享复杂的Excel文件。

学习python之后,你会更加灵活。 您可以在MS Excel的用户界面上执行的操作是有限的,但是如果您使用python,则没有限制。

好处还在于,您可以自动执行修改,例如,您可以重新使用它或将其重新应用到不同的数据集。 速度在很大程度上取决于您使用的algorithm和库以及操作。

你也可以在Excel中使用VB脚本/macros来实现自动化,但通常python不那么繁琐和灵活。