Tag: apache spark dataset

如何读取多个Excel文件并将它们连接成一个Apache Spark DataFrame？: 最近我想从Spark Summit 2016开展Spark机器学习实验。培训video在这里，出口笔记本在这里。实验室中使用的数据集可以从UCI Machine Learning Repository下载。它包含来自燃气发电厂各种传感器的读数。格式是带有五个工作表的xlsx文件。要使用实验室中的数据，我需要读取Excel文件中的所有表单，并将它们连接成一个Spark DataFrame。在培训期间，他们正在使用Databricks Notebook，但是我正在使用IntelliJ IDEA与Scala并在控制台中评估代码。第一步是将所有的Excel工作表保存到名为sheet1.xlxs ， sheet2.xlsx等单独的xlsx文件中，并将其放入工作sheets目录中。如何读取所有Excel文件并将它们连接成一个Apache Spark DataFrame？

空值不在“org.zuinnote.spark.office.excel”包中: Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", "E:\\XLS\\NEWFILE.xlsx") .option("useHeader", "false") .option("treatEmptyValuesAsNulls", "true") .option("inferSchema", "true") .option("addColorColumns", "false") .load(); SourcePropertSet = SourcePropertSet.repartition(1).select("*") .write().option("treatEmptyValuesAsNulls", "true") .format("org.zuinnote.spark.office.excel") .mode(SaveMode.Overwrite) .save("E:\\XLS\\NEWFILE1.xlsx"); 对于上面的代码，在写入xslx格式时，还有其他选项可以考虑空值。我得到scala.MatchError：nullexception引发，如果特定的列包含任何空值。要解决的可能的解决scheme是通过正确的逻辑代码或寻找.options或有任何其他包以.xslx格式这样做？

Interesting Posts

input框打开工作簿

使用其他Excel单元格的string值在公式中表示Excel单元格地址？

在Excel中引用范围

SUM IF如果不在Excel中工作

清除重新select的级联ComboBox

使用xlrd，如何replace丢失的/ NaN单元格

VBA Excel FormulaR1C1“应用程序定义或对象定义的错误”？

当试图复制工作表时，“下标超出范围”

简单的方法来填写缺失的数据

在错误转到与2x下一个循环（错误1倍，正常程序1倍）

如何在Excel中更改填充系列的月份格式？

通过VBA复制另一个工作簿中的数据

将Excel Forumla转换为MySQL查询

跨多个列的唯一值

Excel Form VBAcombobox重置