Tag: pyspark

inferSchema使用spark.read.format（“com.crealytics.spark.excel”）推断datetypes列的double: 我正在PySpark（ Python 3.6和Spark 2.1.1 ）上工作，并尝试使用spark.read.format（“com.crealytics.spark.excel”）从excel文件中获取数据，但是推断出datetypes为double柱。例： input – df = spark.read.format("com.crealytics.spark.excel").\ option("location", "D:\\Users\\ABC\\Desktop\\TmpData\\Input.xlsm").\ option("spark.read.simpleMode","true"). \ option("treatEmptyValuesAsNulls", "true").\ option("addColorColumns", "false").\ option("useHeader", "true").\ option("inferSchema", "true").\ load("com.databricks.spark.csv") 结果： Name | Age | Gender | DateOfApplication ________________________________________ X | 12 | F | 5/20/2015 Y | 15 | F | 5/28/2015 Z | 14 | F | 5/29/2015 打印架构 […]

在没有安装'openpyxl'模块的情况下，将pyspark中的数据框导出为excel文件: 我试图写我的火花数据框在一个Excel文件来生成所需的报告，通过在pandas数据框中更改它们，然后使用 panda_df = df.toPandas() writer = pd.ExcelWriter(filename) panda_df.to_excel(writer,'Sheet1', startcol = 0, startrow = 0) 这给出了一个错误说 File "/usr/lib64/python2.6/site-packages/pandas/io/excel.py", line 350, in __init__ from openpyxl.workbook import Workbook ImportError: No module named openpyxl.workbook 我在远程服务器上运行这个，因此没有pipe理员权限使用sudo apt-get，因为它说“Sudo：apt-get：command not found”，我也尝试使用PIP没有使用，因为它没有安装无论是。有什么其他的方式，我可以在Excel中写我的数据框？

Interesting Posts

将名称包含在stringvariables中的工作表

通过文件夹中的多个工作簿循环执行命令

在C＃Windows窗体中使用OpenFileDialog打开Excel文件

使用for循环移动列

在使用Excel的字母数字string中出现某些字母的总和

VBA – 将15 MB二进制文件读取到var

将文件保存为无macros的macros将closures原始文件

VBA值错误

VBA清除内容

如何创build长度超过260个字符的文件的副本

EXCEL – VBA。获取单元值作为键值对

在Excel中查找多个条件中的多个值

如果列只包含值“D”或空值，则返回TRUE

如何修改Excel 2007的代码以使用SaveAs

用不同的工作表名称读取多个Excel工作表