AWS数据湖摄取

你是否需要使用胶水摄取excel和其他专有格式,或允许胶水工作爬行你的S3存储桶以在你的数据湖中使用这些数据格式?

我已经浏览了“ AWS云上的数据湖基础 ”文档,并且对于将数据导入湖中感到头疼。 我有一个数据提供程序,将大量的数据作为excel和访问文件存储在系统中。

基于stream程的stream程,他们将数据上传到提交s3桶中,这将引发一系列的动作,但是没有将数据转换成可与其他工具一起工作的格式。

使用这些文件是否需要在存储桶中提交的数据上使用胶水,或者还有其他方法可以将这些数据提供给其他工具,如Athena和红移频谱?

感谢您提供有关此主题的任何信息。

-Guido

我没有看到可以将数据直接发送到Data Lake。 在加载到Data Lake之前,您可能需要转换为CSV / TSV / Json或其他格式。

Redshift光谱支持的格式:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html – 我现在还没有看到Excel。

雅典娜支持的文件格式:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html – 我没有看到Excel也不支持在这里。

您需要将file upload到S3,以使用雅典娜或Redshift频谱,甚至是Redshift存储本身。

上传文件到S3:

如果您的文件较大,则需要使用S3分段上传更快地上传。 如果你想要更多的速度,你需要使用S3加速器来上传你的文件。

用雅典娜查询大数据:

您可以使用S3位置的雅典娜创build外部表格。 一旦你创build了外部表,使用Athena Sql引用来查询你的数据。

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

用Redshift Spectrum查询大数据:

与Athena类似,您可以使用Redshift创build外部表格。 开始查询这些表格并在Redshift上获得结果。

Redshift有很多商业工具,我使用SQL Workbench。 它是免费的开源和坚实的,由AWS支持。

SQL WorkBench: http : //www.sql-workbench.net/

将WorkBench连接到Redshift: http : //docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift:

另外,如果你想把数据存储到Redshift,你可以使用copy命令从S3中获取数据,并将其载入到Redshift中。

复制命令示例:

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift簇大小和节点数量:

在创buildRedshift群集之前,检查所需的大小和节点数量。 查询并行运行的节点数量越来越多。 另外一个重要的因素是您的数据分配情况如何。 (分配键和sorting键)

我有一个非常好的Redshift的经验,起床的速度可能需要一段时间。

希望能帮助到你。

Interesting Posts