从多个Excel文件创buildHive表
将Excel文件加载到Hive表的最佳方法是什么? 有没有一个命令将其更改为制表符分隔的格式?
你可以看看tikaparsing,或者apache posparsingxls电子表格。
https://poi.apache.org/ https://tika.apache.org/
你需要一个java-ish语言来使用这个东西,所以考虑一下groovy,jython,clojure,scala,或者如果你知道java的话。
我正在做一些类似于已经在hdfs中的一堆xlsx文件,在输出结束之前进行这种预处理。 希望你的xlsx表单有点直截了当,就像2d数据集。 (embedded的数据透视表,图表等不会在任何情况下进入configuration单元。)
祝你好运,这不是很好… xls是凝结的工作,因为它是如此的灵活。