我试图从这里提供的免费纳斯达克100个Twitter数据集中提取每个公司的数据。 最终的目标,一旦构build和策划,就是用数据框进行一些模拟实验。 我想要的基本数据框表单是: ATVI 49.02 0.44 0.91 7193022 .3 ADBE 119.91 0.31 0.26 1984225 .1 AKAM 64.2 0.65 1.02 1336622 .1 ALXN 126.55 0.86 0.67 2182253 .2 GOOG 838.68 3.31 0.4 1261517 1.0 AMZN 853 2.5 0.29 2048187 1.0 对于每个公司,有六个.xlsx文件(解压到单独的目录中),每个excel文件包含多个工作表。 目前,我只是试图从每个公司的六个Excel电子表格中提取第一个工作表。 所有这些工作表都有两列,行数各不相同,数据标签位于不同行,例如文件1,公司1: Keyword $AAPL – Total tweets 166631 Total audience 221363515 Contributors 42738 Original tweets […]
我正在尝试使用readxl :: read_excel从Excel电子表格(.xlsx和.xls)中将表格数据导入到R中。从桌面读取电子表格时,我已经成功使用此function,但是我无法从“我的文档”文件夹现在。 我试着读同一个文件的.xlsx和.xls格式,并得到2个不同的错误消息。 # Check the working directory [1] "\\\\isdowfsv04/D100Home/e525902" # Read .xlsx specs <- read_excel("Class Specs Sept 2016.xlsx") Error: 'exdir' does not exist # Read .xls specs <- read_excel("Class Specs Sept 2016.xls") Error: path[1]="\\isdowfsv04/D100Home/e525902/Class Specs Sept 2016.xls": Access is denied 第二条消息让我觉得我没有读/写数据的权限,但是我一直在这里创build文件夹/文件。 我甚至使用另一个R库,readr包来从同一目录中导入.csv文件。 # Using readr to import .csv version of the file works […]
我的应用程序正在使用readxl包的read_excel函数读取xls和xlsx文件。 在阅读xls或xlsx文件时,序列和列的确切数目是不知道的。 有15个预定义列 ,其中10列是必需的 ,其余5列是可选的 。 所以文件总是有最less10列, 最多15列。 我需要指定col-types为强制性的10列。 我能想到的唯一方法是使用列名来指定col_types因为我知道这个文件有全部10个列是强制性的,但它们是随机序列。 我试图寻找这样做的方式,但没有这样做。 任何人都可以帮我find一种方法来分配列名称的col_types?
我正在使用readxl R包来读取我的.xlsx excel表,当我使用范围函数时,它显示我一个错误: in read_excel("C:/Data/Digital/Actual.xlsx", range = "D11:E20", : unused argument (range = "D11:E20") 我的代码是: X <- read_excel("C:/Data/Digital/Actual.xlsx",range="D11:E20", col_names = FALSE, skip = 0) 随着readxl ,我已经安装 library(cellranger) library(Rcpp) library(tibble) library(tidyverse) 另外我遵循https://cran.r-project.org/web/packages/readxl/readxl.pdf中所述的指导方针
我使用readxl来导入.xlsx ,代码是: data <- read_excel("data.xlsx") 但是,我得到了这个 有50个或更多的警告(使用警告()看到前50) > warnings() Warning messages: 1: In read_fun(path = path, sheet = sheet, limits = limits, … : NA inserted for impossible 1900-02-29 datetime 2: In read_fun(path = path, sheet = sheet, limits = limits, … : NA inserted for impossible 1900-02-29 datetime 3: In read_fun(path = path, sheet […]
我正在尝试解决使用readxl包将xls数据导入到R中的问题。 特定的xls文件有18列和472行,前7行有描述文本,需要跳过。 我只想在EDA的18列中selectcol 1,3,6:9 。 他们有混合types,包括date,数字和文字。 readxl似乎不能直接导入非连续的列。 我的计划是使用skip = 7先读取整个表格,然后使用select next step。 但是,问题是readxl默认的datetypes为数字。 有没有在readxl中按列名指定col_types的方法 ? 带有示例xlsx的可重现代码,用于围绕代码展开工作。 library(readxl) xlsx_example <- readxl_example("datasets.xlsx") # read the entire table read_excel(xlsx_example) # select specific column to name – following code does not work read_excel(xlsx_example, col_types=col (Sepal.Length = "numeric"))
我明白, readxl可以用来从工作簿读取多个工作表 。 不过,我正在努力扩展这个方向,并将其引导到许多不同的工作表中,其中有不同的工作表名称以及其中的工作表和数据。 我演示了使用安然电子表格数据 ,这是我下载的一堆.xlsx文件。 head(list.files("../data/enron_spreadsheets/"), 3) [1] "albert_meyers__1__1-25act.xlsx" [2] "albert_meyers__2__1-29act.xlsx" [3] "andrea_ring__10__ENRONGAS(1200).xlsx" 为了使其易于pipe理,我们抽样了。 # Set the path to your directory of Enron spreadsheets here enron_path <- "../data/enron_spreadsheets/" # Set the sample size for testing here sample_size <- 100 all_paths <- list.files(enron_path, full.names = TRUE) # For testing, look at n (sample_size) random workbooks. […]
我对R和编程非常陌生,需要帮助排列包含在〜2000.xls和.xlsx文件中的数据。 每个文件在头部之前以34-40行“垃圾”文本开始; 标题下的所有数据具有相同的尺寸。 第一种方法我尝试将数据添加到列表中; 垂直格式是没有用的。 library(readxl) file.list <- list.files(pattern='*.xls') dm.list <- lapply(file.list, read_excel) 我正在尝试一次读入一个文件,删除“垃圾”文本,并写入一个.csv文件(逐列追加数据)。 library(readxl) file.list <- list.files(pattern='*.xls') for(i in 1:dim.data.frame(file.list)) store.matrix <- read_excel((paste0("C:\\Users\\jlmine\\Desktop\\qPCRextData\\", file.list[i])), sheet = "Results") while (store.matrix[1,1] != "Well") #search for header { store.matrix <- store.matrix[-c(1)] } #delete non-header rows write.csv(store.matrix, file = "qPCRdataanalysis.csv", append = TRUE) 以下行引发错误: store.matrix <- read_excel((paste0("C:\\Users\\jlmine\\Desktop\\qPCRextData\\", file.list[i])), […]
我有几个excel文件,我试图读取到R使用包readxl 。 Excel文件由多个标签组成,每个标签有60000行,有四列variables。 第一列是一个简单的整数计数,从0,1,2等等跟踪秒。第二列冒号分隔(:)时间在HH:MM:SS。 第三列是以MM / DD / YYYY分隔的正斜杠( / )date。 第四列是浮点小数(例如338.6)。 使用下面的代码,我得到四列和一些格式是一致的,但有些数据似乎被曲解为date或小数而不是整数,时间或date。 > data1 <- lapply(excel_sheets("./file_name.xls"), read_excel, path = "./file_name.xls", col_names = FALSE) > head(data1[[1]]) X1 X2 X3 X4 1 502342 02:12:50 02/04/2015 338.6 2 502341 02:12:49 02/04/2015 338.1 3 502340 02:12:48 02/04/2015 337.5 4 502339 02:12:47 02/04/2015 337.6 5 502338 02:12:46 02/04/2015 337.5 […]
我一直在阅读如何阅读和组合多个xlsx。 文件到一个R数据框,并遇到了一些非常好的build议,如: 如何在R中使用具有特定行和列的循环读取多个xlsx文件 ,但是不适合我的数据集。 我想R阅读多个xlsx文件,有多个工作表。 所有表单和文件具有相同的列,但长度不相同,应排除NA。 我想跳过前3行,只在1:6,8:10,12:17,19列。 到目前为止我尝试过: file.list <- list.files(recursive=T,pattern='*.xlsx') dat = lapply(file.list, function(i){ x = read.xlsx(i, sheetIndex=1, sheetName=NULL, startRow=4, endRow=NULL, as.data.frame=TRUE, header=F) # Column select x = x[, c(1:6,8:10,12:17,19)] # Create column with file name x$file = i # Return data x }) dat = do.call("rbind.data.frame", dat) 但是这只占用每个文件的所有第一张 有谁知道如何将所有的表格和文件放在一个R数据框中? 另外,你会推荐什么软件包来处理大量的数据? 到目前为止,我尝试了readxl和XLConnect。 太感谢了!