Excel的替代scheme,用于处理非常大的数据集

我正在尝试使用Excel来执行一些进程,但由于我正在使用的数据集很大(160 +列x 400k行),所以遇到了它的function限制。我最初使用Excel是因为我需要的清理任务确实适合应用程序。

这些包括:

*连接列

*将mm-dd-yyyy更改为yyyy-mm-dd

*列出重复值

*批量replace值

所有这些任务看起来都非常适合Excel,那是我拥有最多经验的程序。 但是有没有一个更适合这个任务的数据库程序,或者是让excel更有效地处理这些数据的任何方式(例如,目前Excel只使用4个可用的1个核心)。

预先感谢您提供的任何帮助。 我对大数据分析领域颇为陌生。

那么SQL Server或MySQL呢?

你不必实际连接任何东西 – 只是有一个显示列连接的视图。 可能会更有效率。

SELECT CONCAT(Column1, Column2, Column3) AS MyConcatenatedValue 

您还可以创build以特定方式表示数据的存储过程,视图或用户定义函数。

您可以在MySQL和SQL Server中以特定格式请求date。

MySQL的

 SELECT DATE_FORMAT( '2010-01-31 15:23:45', '%D %M %Y %k:%i:%s') AS FormattedDate 

SQL Server

 SELECT CONVERT( VARCHAR, '2010-01-31 15:23:45', 102) AS FormattedDate 

要用另一个值replace一个值,你可以这样写一个UPDATE语句:

 UPDATE MyTable SET MyColumn = MyNewValue WHERE MyColumn = MyOldValue 

要确定重复,你可以写一个这样的查询:

 SELECT MyColumn, COUNT(*) AS 'Count' FROM MyTable GROUP BY MyColumn HAVING COUNT(*) > 1