创buildHive表并从xls文件插入数据

我已经从我的主pipe得到了一个项目任务,声称可以在HDInsight中使用Hive(对于Windows)来查询两种不同的文件types,然后从中提取数据。 其中一个文件是.xls,另一个是.csv文件。

我已经设法将这两个file upload到Hadoop集群与VS,然后尝试创build一个Hive表.xls文件(我使用的教程之前使用.csv文件与Hive工作得很好),但与.xls文件时,我经常收到“失败”错误时尝试。

我尝试了下面的示例代码来创build表,分隔,字段终止(我尝试了几个没有成功),文件types(不知道还有什么其他用途)和目标位置。

DROP TABLE IF EXISTS table1; CREATE EXTERNAL TABLE IF NOT EXISTS table1(id int, postcde int, city string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION 'wasb://container@resourcegroup.blob.core.windows.net/folder1/data.xls/' 

我不确定这是否可能,因为似乎对这里的类似问题似乎有矛盾的回应,但根据我的主pipe,应该有可能与Hive做到这一点 – 无需将文件types转换为在上传到Hadoop之前使用相同的格式!

https://community.hortonworks.com/questions/31968/hi-is-there-a-way-to-load-xlsx-file-into-hive-tabl.html

我不认为你可以指定一个Excel文件作为表的位置。

Hive可以将数据保存在HDFS中( https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL )或

S3存储( http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hive-additional-features.html

Hive不直接支持EXCEL格式,因此必须将excel文件转换为分隔格式文件,然后使用load命令将file upload到Hive(或HDFS)。