Tag: r

规范化和清理R中的excel文件

我需要帮助清理R中的excel文件 这些是由不同人制作的excel文件,它们应该包含相同的文本。 我的任务是比较文本的片段,并确保它们匹配(有时候人们的types,有时候人们复制粘贴,这是一团糟)。 我特别的问题是,没有标准的格式,其中一些已经从PDF中提取。 给你一个想法,文字可能是这样的: 文件A: “猴子必须吃: ·香蕉,或 6个香蕉。 文件B: “猴子必须吃: 香蕉,或者 5个香蕉“。 文件C: “猴子必须吃: ·香蕉,或 6个香蕉。 到目前为止,我已经使用了以下function的组合,但是最后我的比较仍然是FALSE 。 monkeyr$txtcp <- stri_enc_toascii(monkeyr$txtcp) monkeyr$txtcp <- removeNumbers(monkeyr$txtcp) #bad idea as I want to compare the number of bananas monkeyr$txtcp <- tolower(monkeyr$txtcp) monkeyr$txtcp <- stripWhitespace(monkeyr$txtcp) monkeyr$txtcp <- removePunctuation(monkeyr$txtcp) monkeyr$txtcp <- trimws(monkeyr$txtcp) monkeyr$txtcp <- stri_replace_all_charclass(monkeyr$txtcp, "\t", " ", merge […]

在VBA错误的目录中运行R脚本

我有一个编辑R脚本的macros。 那么R脚本应该被下面的VBA调用: Dim shell As Object Set shell = VBA.CreateObject("WScript.Shell") Dim waitTillComplete As Boolean: waitTillComplete = True Dim style As Integer: style = 1 Dim errorCode As Integer Dim path As String path = """" & "C:\Program Files\R\R-3.3.2\bin\i386\R.exe" & """ """ & "R RAM Cluster Script.R" & """" errorCode = shell.Run(path, style, waitTillComplete) 上面的代码是从这个问题 。 […]

R中设置colname的问题(创build数字随机数)

数据可以在这里find: http : //www.scb.se/hitta-statistik/statistik-efter-amne/befolkning/befolkningens-sammansattning/befolkningsstatistik/pong/tabell-och-diagram/helarsstatistik–kommun-lan-och -riket2 / folkmangd-I-LAN-17492015 / library(readxl) scb <- read_excel(file.choose()) scb <- scb[3:34,1:56] # Remove data that is not needed scbnew <- data.frame(t(scb)) colnames(scbnew) <- scbnew[1,] # Nope colnames(scbew) <- as.character(scbnew[1,]) # Nope 相反,我得到的数字主要是数字56.我的目标是有列作为行,反之亦然。 没有为我收集/重塑/融化,如果有人想显示如何(没有代码从我的遗憾) Dput structure(list(c("Folkmängden länsvis 1749 – 2015", NA, "Län", "Stockholm2", "Uppsala3", "Södermanland", "Östergötland", "Jönköping4", "Kronoberg", "Kalmar", "Gotland", "Blekinge", "Skåne5", […]

读取多个Excel表格时出错使用R中的openxlsx软件包

我试图加载一个带有大量标签的Excel工作簿到R ,做一些分析,然后将结果导回到Excel 。 我正在使用openxlsx package因为该openxlsx package的某些function不易使用其他软件包(例如在输出文件中创build“ comments ”,为tabs color code以及使用64-bit R )。 当我尝试阅读工作簿时,有时会收到以下error message (或类似的内容): Error in unzip(xlsxFile, exdir = xmlDir) : cannot open file 'C:/Users/MENDEL~1/AppData/Local/Temp/RtmpIb3WOf/_excelXMLRead/xl/worksheets/sheet5.xml': Permission denied 这个error message并不总是显示出来 – 但有时会出现,程序崩溃。 有没有人有任何想法如何解决这个问题? 我不知道为什么程序有时会认为它没有权限访问表单。 先谢谢你!

模仿从R中最小化Python的function

我有以下数据点: xdata看起来如下所示。 1000.00 300.00 100.00 30.00 10.00 3.00 1.00 0.30 0.10 0.03 0.01 0.00 ydata看起来像下面这样。 91.8 95.3 100 123 203 620 1210 1520 1510 1520 1590 1620 我在python中运行以下命令: results = minimize(fit.dataFit,cParams,args=(xdata,np.array(ydata))) curve = np.array(ydata)+results.residual Std = [list(i) for i in zip(xdata,ydata, curve)] 我的主要问题是无法跟踪数据更改的stream。 dataFit执行以下操作: y_model = (ymax*xdata / (ec50 + xdata)) + Ns* xdata + […]

Excel或R – 创build具有多个条件的variables?

两个数据集: 数据1 XYZ AB ? CD ? 数据2 x1 y1 z1 CD 100 EF 200 AB 300 在Excel中最好(或者如果需要的话)我想创buildvariables“z”,其中= z1,如果x = x1和y = y1。 所以在上面的例子中,z应该是{300,100}。

自动获取excel表格的列types

我有一个excel文件,几张纸,每个都有几列,所以我不想单独指定列的types,但自动。 我想读它们为stringsAsFactors= FALSE会做,因为它正确地解释列的types。 在我当前的方法中,列宽度“0.492±0.6”被解释为数字,返回NA,因为“ stringsAsFactors选项在read_excel不可用。 所以在这里,我写了一个解决方法,或多或less地工作,但我不能在现实生活中使用,因为我不被允许创build一个新的文件。 注意:我需要其他列作为数字或整数,还有其他人只有文字作为字符,因为stringsAsFactors在我的read.csv例子。 library(readxl) file= "myfile.xlsx" firstread<-read_excel(file, sheet = "mysheet", col_names = TRUE, na = "", skip = 0) #firstread has the problem of the a column with "0.492 ± 0.6", #being interpreted as number (returns NA) colna<-colnames(firstread) # read every column as character colnumt<-ncol(firstread) textcol<-rep("text", colnumt) secondreadchar<-read_excel(file, sheet = "mysheet", […]

提取两组坐标之间的独特组合

我有两组坐标系,其中一组有49,898个x和y的组合(我们称之为组合A),另一组有36404个x和y的组合(我们称之为组合B)。 组A具有组B中的所有组合,但具有另外的13,494种组合。 我想提取这个独特的13,494组合。 为了试图用excel或R来提取这些独特的值(如果有人提出了使用这两种方法的解决scheme,我会很高兴),我已经将Set B的x和y坐标组合复制到Set A的列中。 显示表格布局的简单图片: x和y示例 我已经阅读了一些提议使用excel&R的post,其中部分涉及这个问题,除了输出总是49,898个组合,因为它们保持了“原始”重复值的集合。 我明白这是为什么,但我想要完全删除这些重复,以便我有一个最终输出包含集A的唯一13,494组合。 在Excel中,我使用了以下内容:数据 – >高级filter – >唯一logging 在RI使用以下代码从这个线程: UniqRemDups <- unique(RemDups[,c('Xcod','Ycod')]) 如何筛选来自R数据框的列的唯一组合 任何帮助/build议将不胜感激。 谢谢。

R:读取excel文件和使用ca库的问题

我正在尝试阅读文件并build立对应分析,但是我不能这样做,因为阅读excel是错误的。 我的文件看起来像 abcde 1mbank.ru 0 0 0 0 0 akbars.ru 0 0 0 0 0 alfabank.ru 1 0 0 1 0 avangard.ru 0 0 0 0 0 bank-hlynov.ru 0 0 0 0 0 当我使用 df <- read.table("tasks_correspondence_t.xlsx", sep=";") 要么 channel <- odbcConnectExcel("tasks_correspondence_t.xlsx") df <- sqlFetch(channel, “tasks_correspondence_t”) 我明白了 F1 F2 F3 F4 F5 F6 1mbank.ru 0 […]

使用POSIXct导入数据时出错

这是我的数据,我想导入它们,所以当我执行这个命令 data.raw=read.xlsx(file=file.choose(),sheetName = "Amanda",header=TRUE,row.names=NULL)%>% + mutate(date.re = as.POSIXct(date, format = "%d/%m/%Y")) 我得到以下错误 Error in mutate_impl(.data, dots) : c("do not know how to convert 'function (x) ' to class “POSIXct”", "do not know how to convert 'UseMethod(\"date\")' to class “POSIXct”") 这是我的数据资料