Tag: 数据

一个rdd字符将被转换成一个dataframe: RDD数据将被转换成dataframe。但我无法这样做。 ToDf不工作，我也尝试与数组RDD到数据框。请告诉我。这个程序是用scala和sparkparsing一个样例excel import java.io.{File, FileInputStream} import org.apache.poi.xssf.usermodel.XSSFCell import org.apache.poi.xssf.usermodel.{XSSFSheet, XSSFWorkbook} import org.apache.poi.ss.usermodel.Cell._ import org.apache.spark.sql.SQLContext import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.types.{ StructType, StructField, StringType, IntegerType }; object excel { def main(args: Array[String]) = { val sc = new SparkContext(new SparkConf().setAppName("Excel Parsing").setMaster("local[*]")) val file = new FileInputStream(new File("test.xlsx")) val wb = new XSSFWorkbook(file) val sheet […]

如何读取Excel文件作为数据框: 我正在试图用国际货币基金组织的一些数据做一些情节。我试图用read.table（）读取xls文件： base <- read.table("http://www.imf.org/external/pubs/ft/weo/2017/02/weodata/WEOOct2017all.xls", header=TRUE, sep="\t", fill=TRUE) 但是，数据保存为列表： typeof(base) [1] "list" 而且我不知道如何提取数据来制作一个barplot。例如，我想为variables“NGDP_RPCH”绘制“ARG”国家和2010-2019年（excel中40-49列）的variables。我试过这个，但没有奏效： graph <- base[which((base[2]=="ARG")&(base[3]=='NGDP_RPCH')),40:49] graph [1] X2010 X2011 X2012 X2013 X2014 X2015 X2016 X2017 X2018 X2019 <0 rows> (or 0-length row.names) 我想知道如何将数据保存为数据框，或者如何从列表中提取数据的vector，所以我可以运行： barplot(graph).

OLEDB读取excel混合数据types，无标题: 我正在通过OLEDB连接将几个Excel电子表格读入数据集。我遇到混合数据types的问题（特别是带有数字值和数字的文本，例如#######和## abc ##）我试过在这个问题中提出的解决schemeOleDB和混合的Excel数据types：缺less数据然而，经过进一步的研究，似乎TypeGuessRows = 0和ImportMixedTypes = Text在连接string中什么也不做，因为它们总是从registry中获取，对于此解决scheme我无法编辑。上述解决scheme工作的唯一原因是通过设置没有标题（HDR = NO），以便具有标题的任何文件将始终将所有列设置为文本types。我想处理的文件确实有混合的数据types，它没有标题行。有谁知道一个解决scheme设置OLEDBDataAdapter读取文本types的所有列？

将文本文件转换为带分隔符和文本格式的列vbscript的excel: 我想通过VBScript将.txt文件转换为Excel。我有一个angular色，我想分隔“|”。我还想在文本打开之前将列数据格式化为文本。这是我目前正在使用的减去列数据的格式作为文本。 Const xlDelimited = 1 Const xlOpenXMLWorkbook = 51 xl.Workbooks.OpenText "C:\project\project.txt", , , xlDelimited, , , , , , , True, "|" Set wb = xl.ActiveWorkbook wb.SaveAs "C:\project\project.xlsx", xlOpenXMLWorkbook, , , , False wb.Close xl.Quit 在打开文本文件之前，我需要格式化列数据的帮助。我不知道如何去做这件事。在打开文件后，我试图将文本格式设置为文本，导致从零开始的数字数据丢失。任何帮助将不胜感激。先谢谢你。

OleDB和混合Excel数据types：缺less数据: 我有一个Excel工作表，我想读入一个数据表 – 除了Excel工作表中的一个特定列以外，一切都很好。 “ProductID”这一列是像##########和n#########这样的值的混合。我试图让OleDB自动处理所有东西，通过读取到数据集/数据表中，但是像' n###### '这样的'ProductID'中的任何值都丢失，忽略并留空。我尝试通过使用datareader循环每一行手动创build我的DataTable，但具有完全相同的结果。代码如下： // add the column names manually to the datatable as column_1, column_2, … for (colnum = 0; colnum < num_columns; colnum ++){ ds.Tables["products"].Columns.Add("column_" +colnum , System.Type.GetType("System.String")); } while(myDataReader.Read()){ // loop through each excel row adding a new respective datarow to my datatable DataRow a_row = ds.Tables["products"].NewRow(); […]

pandas：从一个大的Excel文件中的每个电子表格生成一个数据框: 我有一个大的excel文件，我已经导入pandas，由92张组成。我想使用循环或某种工具从每个电子表格中的数据（每个电子表格中的一个数据框）生成数据框，这些数据框也会自动命名每个数据框。我刚刚开始使用pandas和jupyter，所以我不是很有经验。这是迄今为止的代码： import pandas as pd import matplotlib.pyplot as plt import numpy as np import datetime %matplotlib inline concdata = pd.ExcelFile('Documents/Research Project/Data-Ana/11July-27Dec.xlsx') 我也有一个所有电子表格名称的列表： #concdata.sheet_names 谢谢！

使用R将数据从交叉表重新格式化为单数据行格式: 我使用R来通过一个API拉入数据，并将其全部合并到一个表中，然后写入一个CSV文件。但是，要在Tableau中正确绘制图表，我需要使用Excel的重新格式化工具将数据从交叉表格格式转换为每行仅包含一个数据段的格式。例如，采取以下格式： ID,Gender,School,Math,English,Science 1,M,West,90,80,70 2,F,South,50,50,50 至： ID,Gender,School,Subject,Score 1,M,West,Math,90 1,M,West,English,80 1,M,West,Science,70 2,F,South,Math,50 2,F,South,English,50 2,F,South,Science,50 在R或R库中是否有任何现有的工具可以让我这样做，或者提供一个起点？我正在尝试自动为Tableau准备数据，以便我只需要运行一个脚本就可以正确格式化它，并且想要删除手动Excel步骤（如果可能的话）。

Coldfusion电子表格设置数据格式（h：mm）: 我正在使用Coldfusion 10，我有一个testing代码来创build一个电子表格并设置一个值为“8:30”的格式来格式化“h：mm”。代码如下： <cfset sObj = spreadsheetNew("true")> <CFSET SpreadsheetFormatCell(sObj,{dataFormat="h:mm", alignment="right"}, 1, 2)> <CFSET timehmm = "8:30"> <cfset spreadsheetSetCellValue(sObj,"#timehmm#", 1, 2)> <cfset SpreadSheetSetColumnWidth(sObj, 2, 11)> <cfspreadsheet action="write" name="sObj" filename="..\TEST.xlsx" overwrite="true"> <cflocation url="EXCEL/TEST.xlsx" addtoken="no"> 问题是，在excel文件中，我点击值为8:30的列，插入functioninput框中显示的值是8:30，应该是'8:30:00 AM'，因为我已经格式化了这个细胞。如果我input同一个单元格的值为'8:30'，然后再次单击单元格。我可以看到插入function框中的值是'8:30:00 AM'正确的。请帮忙指出我的代码有什么问题，因为我需要将此格式设置为单元格，以便稍后进行总结。目前这个单元格好像已经被识别为文本格式，不能被求和。谢谢。

在Power Query中对SharePoint网站上的Excelpath进行参数化时，无效的绝对path错误: 我有一个有效的，工作的，在SharePoint站点上的Excel文件的绝对path（例如“ https：//…/Filename.xlsx ”），由“FilePath”表示。我尝试通过Power Query从“FilePath”导入一些信息。运用 let Source = Excel.Workbook(Web.Contents("FilePath"), null, true), 工作正常。但是，如果我尝试通过将“FilePath”放置在名为Source_Files的Excel表的第一行中find与我的Power Query所在的同一个Excel文件（我导入PowerQuery中）的列源文件中，我总是可以得到 DataFormat.Error: The supplied file path must be a valid absolute path. Details: FilePath 错误，我是否尝试以这种方式进行参数化： let Source = Excel.Workbook(File.Contents(Source_Files[Source file]{0}), null, true), 或者这样： let FilePath = File.Contents(Source_Files[Source file]{0}), Source = Excel.Workbook(Web.Contents(FilePath), null, true), 如何在Power Query中对SharePoint网站上的Excel文件进行参数化？

如何在由pandas dataframe创build的excel表格中添加边框？: import pandas as pd table =[[1,2,3,4],[11,12,13,14],["Pass","Fail","Pass","Fail"]] df = pd.DataFrame(table) df = df.transpose() headers=["Current_Value","Previous_Value","Result",] df.columns =headers writer = pd.ExcelWriter("pandas.xlsx") df.to_excel(writer, sheet_name='Sheet1') writer.save() 这段代码将创build一个带粗体标题的表格。我想添加边框到Excel表中存在的表格。这可能吗？