Tag: pyspark

inferSchema使用spark.read.format(“com.crealytics.spark.excel”)推断datetypes列的double

我正在PySpark( Python 3.6和Spark 2.1.1 )上工作,并尝试使用spark.read.format(“com.crealytics.spark.excel”)从excel文件中获取数据,但是推断出datetypes为double柱。 例: input – df = spark.read.format("com.crealytics.spark.excel").\ option("location", "D:\\Users\\ABC\\Desktop\\TmpData\\Input.xlsm").\ option("spark.read.simpleMode","true"). \ option("treatEmptyValuesAsNulls", "true").\ option("addColorColumns", "false").\ option("useHeader", "true").\ option("inferSchema", "true").\ load("com.databricks.spark.csv") 结果: Name | Age | Gender | DateOfApplication ________________________________________ X | 12 | F | 5/20/2015 Y | 15 | F | 5/28/2015 Z | 14 | F | 5/29/2015 打印架构 […]

在没有安装'openpyxl'模块的情况下,将pyspark中的数据框导出为ex​​cel文件

我试图写我的火花数据框在一个Excel文件来生成所需的报告,通过在pandas数据框中更改它们,然后使用 panda_df = df.toPandas() writer = pd.ExcelWriter(filename) panda_df.to_excel(writer,'Sheet1', startcol = 0, startrow = 0) 这给出了一个错误说 File "/usr/lib64/python2.6/site-packages/pandas/io/excel.py", line 350, in __init__ from openpyxl.workbook import Workbook ImportError: No module named openpyxl.workbook 我在远程服务器上运行这个,因此没有pipe理员权限使用sudo apt-get,因为它说“Sudo:apt-get:command not found”,我也尝试使用PIP没有使用,因为它没有安装无论是。 有什么其他的方式,我可以在Excel中写我的数据框?