inferSchema使用spark.read.format（“com.crealytics.spark.excel”）推断datetypes列的double

我正在PySpark（ Python 3.6和Spark 2.1.1 ）上工作，并尝试使用spark.read.format（“com.crealytics.spark.excel”）从excel文件中获取数据，但是推断出datetypes为double柱。

例：

input –

df = spark.read.format("com.crealytics.spark.excel").\ option("location", "D:\\Users\\ABC\\Desktop\\TmpData\\Input.xlsm").\ option("spark.read.simpleMode","true"). \ option("treatEmptyValuesAsNulls", "true").\ option("addColorColumns", "false").\ option("useHeader", "true").\ option("inferSchema", "true").\ load("com.databricks.spark.csv")

结果：

 Name | Age | Gender | DateOfApplication ________________________________________ X | 12 | F | 5/20/2015 Y | 15 | F | 5/28/2015 Z | 14 | F | 5/29/2015

打印架构 –

 df.printSchema() root |-- Name: string (nullable = true) |-- Age: double (nullable = true) |-- Gender: string (nullable = true) |-- DateOfApplication: double (nullable = true)

做.show –

 df.show() Name | Age | Gender | DateOfApplication ________________________________________ X | 12.0 | F | 42144.0 Y | 15.0 | F | 16836.0 Z | 14.0 | F | 42152.0

而数据集的读取date或任何其他数值正在转换为双（date的特殊问题是，它完全改变了难以恢复到原来的date的值。

我可以帮忙吗？

这里的插件的作者:)

推断列types是在插件本身完成的。该代码是从spark-csv中获取的。从代码中可以看到，目前只推断出String，Numeric，Boolean和Blank单元格types。

最好的select是通过使用相应的DateUtil API来创build一个适当地推断date列的PR。

第二好的select是手动指定模式，类似于@addmeaning所描述的。请注意，我刚刚发布了0.9.0版本，它使一些必需的参数成为可选项，并更改了指定文件path的方式。

 yourSchema = StructType() .add("Name", StringType(), True) .add("Age", DoubleType(), True) .add("Gender", StringType(), True) .add("DateOfApplication", DateType(), True) df = spark.read.format("com.crealytics.spark.excel"). schema(yourSchema). option("useHeader", "true").\ load("D:\\Users\\ABC\\Desktop\\TmpData\\Input.xlsm")

Spark不能推断Datetypes。您可以手动指定模式并将DateOfApplication作为string读取，然后将其转换为date。以这种方式阅读你的DF：

  yourSchema = StructType() .add("Name", StringType(), True) .add("Age", DoubleType(), True) .add("Gender", StringType(), True) .add("DateOfApplication", StringType(), True) df = spark.read.format("com.crealytics.spark.excel"). schema(yourSchema). option("location", "D:\\Users\\ABC\\Desktop\\TmpData\\Input.xlsm").\ option("spark.read.simpleMode","true"). \ option("treatEmptyValuesAsNulls", "true").\ option("addColorColumns", "false").\ option("useHeader", "true").\ //no infer schema load("com.databricks.spark.csv")

inferSchema使用spark.read.format（“com.crealytics.spark.excel”）推断datetypes列的double

Apache POI＆SXSSF：行数始终为0

即使在使用apache poi的代码相同的情况下，excel单元也会在不同的机器上收缩

读取多个单元格内的单个值的Excel文件中的值

使用Apache POI及其名称获取Excel公式的内容

Excel工作表的单元格types显示为实际上是文本types的数字

使用Apache POI读取Android中的Excel文件的依赖关系

Apache POI在读取CSV转换的单元格数据时发生Java空指针exception

在Apache POI中创buildExcel 2007文件后已损坏

在线程“main”中获取exceptionjava.lang.OutOfMemoryError：Java堆空间

在JavaScript中使用Apache PoiparsingExcel工作表