Tag: apache spark sql

辛巴火花ODBC驱动程序不工作MS Excel: 我正在使用Spark（1.5.0）来使用Spark ThriftServer应用程序使用Spark-SQLfunction，并使用Simba Spark ODBC Driver来获取连接。使用Tableau，我可以连接并能够执行Spark-SQL操作。但是，当我尝试将Spark-SQL连接到MS-Excel时，它会连接，但不会列出数据库和表名。而且我也尝试了按照Doc的MS-Excel的Microsoft Query选项来执行自定义的SQL查询（ select * default.airline ），但是它的查询语句（ select * from SPARK.default.airline ）与目录名SPARK抛出错误。问题是如何从查询中删除该目录名称，我尝试了所有可用的选项。

Spark Sql：从Excel工作表加载文件（扩展名为.xlsx）无法正确推断datetypes列的模式: 我有一个xlsx文件包含date/时间（我的时间）在以下格式和示例logging – 5/16/2017 12:19:00 AM 5/16/2017 12:56:00 AM 5/16/2017 1:17:00 PM 5/16/2017 5:26:00 PM 5/16/2017 6:26:00 PM 我正在以下面的方式读取xlsx文件： val inputDF = spark.sqlContext.read.format("com.crealytics.spark.excel") .option("location","file:///C:/Users/file.xlsx") .option("useHeader","true") .option("treatEmptyValuesAsNulls","true") .option("inferSchema","true") .option("addColorColumns","false") .load() 当我尝试使用以下模式获取模式时： – inputDF.printSchema() ，我得到双。有时，即使我得到的模式为string。而当我打印的数据，我得到的输出为： – —————— My Time —————— 42871.014189814814 42871.03973379629 42871.553773148145 42871.72765046296 42871.76887731482 —————— 以上输出对于给定的input显然是不正确的。而且，如果我以csv格式转换xlsx文件并读取它，我会得到正确的输出。这是我如何阅读CSV格式的方式： – spark.sqlContext.read.format("csv") .option("header", "true") .option("inferSchema", true) .load("file:///C:/Users/file.xlsx") […]

如何在apache spark java中使用hadoop office库将数据集写入excel文件: 目前我正在使用com.crealytics.spark.excel来读取excel文件，但是使用这个库我不能将数据集写入excel文件。这个链接说使用hadoop办公库（ org.zuinnote.spark.office.excel ）我们可以读取和写入excel文件请帮助我将数据集对象写入spark java中的excel文件。

什么是加载Excel文件的强制选项？: 我使用下面的语法从S3加载了一个excel文件，但我想知道需要在这里设置的选项。为什么必须设置下面所有的加载excel文件的选项？这些选项都不是强制加载其他文件types，如csv，del，json，avro等 val data = sqlContext.read. format("com.crealytics.spark.excel"). option("location", s3path). option("useHeader", "true"). option("treatEmptyValuesAsNulls", "true"). option("inferSchema","true"). option("addColorColumns", "true"). load(path) 如果上面的任何选项（除了位置）都没有设置，我会得到下面的错误： sqlContext.read.format("com.crealytics.spark.excel").option("location", s3path).load(s3path) 错误信息： Name: java.lang.IllegalArgumentException Message: Parameter "useHeader" is missing in options. StackTrace: at com.crealytics.spark.excel.DefaultSource.checkParameter(DefaultSource.scala:37) at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:19) at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:7) at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:345) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:149) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:132) at $anonfun$1.apply(<console>:47) at $anonfun$1.apply(<console>:47) at time(<console>:36)