AWS数据湖摄取

你是否需要使用胶水摄取excel和其他专有格式，或允许胶水工作爬行你的S3存储桶以在你的数据湖中使用这些数据格式？

我已经浏览了“ AWS云上的数据湖基础 ”文档，并且对于将数据导入湖中感到头疼。我有一个数据提供程序，将大量的数据作为excel和访问文件存储在系统中。

基于stream程的stream程，他们将数据上传到提交s3桶中，这将引发一系列的动作，但是没有将数据转换成可与其他工具一起工作的格式。

使用这些文件是否需要在存储桶中提交的数据上使用胶水，或者还有其他方法可以将这些数据提供给其他工具，如Athena和红移频谱？

感谢您提供有关此主题的任何信息。

-Guido

我没有看到可以将数据直接发送到Data Lake。在加载到Data Lake之前，您可能需要转换为CSV / TSV / Json或其他格式。

Redshift光谱支持的格式：

雅典娜支持的文件格式：

您需要将file upload到S3，以使用雅典娜或Redshift频谱，甚至是Redshift存储本身。

上传文件到S3：

如果您的文件较大，则需要使用S3分段上传更快地上传。如果你想要更多的速度，你需要使用S3加速器来上传你的文件。

用雅典娜查询大数据：

您可以使用S3位置的雅典娜创build外部表格。一旦你创build了外部表，使用Athena Sql引用来查询你的数据。

用Redshift Spectrum查询大数据：

与Athena类似，您可以使用Redshift创build外部表格。开始查询这些表格并在Redshift上获得结果。

Redshift有很多商业工具，我使用SQL Workbench。它是免费的开源和坚实的，由AWS支持。

SQL WorkBench： http : //www.sql-workbench.net/

将WorkBench连接到Redshift： http : //docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift：

另外，如果你想把数据存储到Redshift，你可以使用copy命令从S3中获取数据，并将其载入到Redshift中。

复制命令示例：

Redshift簇大小和节点数量：

在创buildRedshift群集之前，检查所需的大小和节点数量。查询并行运行的节点数量越来越多。另外一个重要的因素是您的数据分配情况如何。（分配键和sorting键）

我有一个非常好的Redshift的经验，起床的速度可能需要一段时间。

希望能帮助到你。