Excel的替代scheme,用于处理非常大的数据集
我正在尝试使用Excel来执行一些进程,但由于我正在使用的数据集很大(160 +列x 400k行),所以遇到了它的function限制。我最初使用Excel是因为我需要的清理任务确实适合应用程序。
这些包括:
*连接列
*将mm-dd-yyyy更改为yyyy-mm-dd
*列出重复值
*批量replace值
所有这些任务看起来都非常适合Excel,那是我拥有最多经验的程序。 但是有没有一个更适合这个任务的数据库程序,或者是让excel更有效地处理这些数据的任何方式(例如,目前Excel只使用4个可用的1个核心)。
预先感谢您提供的任何帮助。 我对大数据分析领域颇为陌生。
那么SQL Server或MySQL呢?
你不必实际连接任何东西 – 只是有一个显示列连接的视图。 可能会更有效率。
SELECT CONCAT(Column1, Column2, Column3) AS MyConcatenatedValue
您还可以创build以特定方式表示数据的存储过程,视图或用户定义函数。
您可以在MySQL和SQL Server中以特定格式请求date。
MySQL的
SELECT DATE_FORMAT( '2010-01-31 15:23:45', '%D %M %Y %k:%i:%s') AS FormattedDate
SQL Server
SELECT CONVERT( VARCHAR, '2010-01-31 15:23:45', 102) AS FormattedDate
要用另一个值replace一个值,你可以这样写一个UPDATE
语句:
UPDATE MyTable SET MyColumn = MyNewValue WHERE MyColumn = MyOldValue
要确定重复,你可以写一个这样的查询:
SELECT MyColumn, COUNT(*) AS 'Count' FROM MyTable GROUP BY MyColumn HAVING COUNT(*) > 1