Tag: pandas

有条件的join或在pythonpandas中连接

我有6列excel,我想join其中5个; 然而,在所有列的单元格中,我没有任何string中的一些具有“0”。 我需要的是:join5列,当单元格不是“0”时使用“>”分隔符,当它为零时,只保留它为空白。 你能帮我怎么在Python或Excel中做到这一点? 下面的例子: The original file is:(C1:C6 are columns' name) C1 C2 C3 C4 C5 C6 H1 C0 0 LL 0 H2 R0LL AB 0 0 0 I need the results like:(C1 and RESULTS are columns'name) C1 RESULTS H1 C0>L>L H2 R0LL>AB 谢谢

如何在Python中使用pandas应用一个复杂的公式?

我需要在交通数据集(NGSim)上应用专门devise的移动平均滤波器。 这个过程在Excel中非常繁琐,不仅因为数据集非常大,而且还因为公式必须查看列来获取某些值并进行总结。 我想知道是否有任何这样的例子,或pandas,Python中使用的任何其他复杂的公式。 请提供任何示例资源。

Python 3.4 – 在梳理csv时更新空值(如果有更新)

我写了一些早期的代码,将一个文件夹中的所有.xls文件合并到一个csv中。 我想每周运行一次该程序,将所有每日更新的.xls报告合并在一起。 我的问题是一些字段为空,直到后来的电子表格填写项目。 例如 Spreadsheet from 24th Spreadsheet from 28th Repaired Status Repaired Status Abuse Abuse NFF NFF (null) Abuse NFF NFF Abuse Abuse (null) Abuse 我想也许我应该将每个电子表格文件名添加到csv,然后在程序运行时忽略该文件,然后最新的文件将覆盖最后一个数据。 不知道这是否会工作或如何做到这一点? 上述工作还是有另一种方式我可以做到这一点? 编辑:由于我没有任何反应,我决定只是不更新​​行,如果它有空值,这使得我的数据过时但准确, 如果有人知道一个办法来实现我的问题,还是会喜欢听。 谢谢。

尝试在GAE中使用pandas和xlsx作家

所以我在GAE上创build了一个基本的本地页面,它有一个标题,一个字段和一个提交button。 我的最终目标是创build一个本地页面,在该字段中input来自pandas的数据框,并在点击提交button时将其转换为excel文件。 我有一个用Python编写的程序已经可以做到这一点,但我不知道如何转移。 这里是我已经有的页面的代码:import webapp2 class MainPage(webapp2.RequestHandler): def get(self): myPage = """ <html> <body> <form action="/hello" method="get"> <div> <input type="text" name="yourname" size="30" maxlength="30"></input> </div> <div> <input type="submit" value="Submit dataframe"> </div> </form> </body> </html> """ self.response.out.write(myPage) class hello(webapp2.RequestHandler): def get(self): yourname = self.request.get('yourname') self.response.out.write(yourname + " to you too") application = webapp2.WSGIApplication([ ('/', MainPage),('/hello', hello)], debug=True) […]

Python:当文件在列标题中包含特殊字符时,使用Pandas读取Excel文件

我知道你可以用pandas阅读Excel文件,但是在工作表中的列标题没有像纯文本那样易于阅读的格式的文件中,我遇到了麻烦。 换句话说,如果列标题有特殊字符,那么文件将无法导入。 就像您将数据导入到Microsoft Access或其他数据库一样,您可以select导入或删除特殊字符。 我唯一的解决办法是编写一个Excelmacros来去除导入时通常不被数据库喜欢的字符,然后使用python导入文件。 但是,必须有一种纯粹使用python来处理这种情况的方法(这个速度要快得多)。 我的问题是,如果python处理导入.xls和.xlsx文件,当列标题有特殊字符不会导入?

将数据写入excel模板

我需要创build一些Excel表格,但这些表格没有简单的外观。 有一些图片,一些特殊的字体等,但复杂的部分是静态的,这意味着总是相同的。 所以我的想法是,我会用这些棘手的部分创build一个Excel模板,然后从Python中插入dynamic数据到这个模板。 我正在与pandas框架,但我没有find一个方法如何做到这一点或没有这个框架。 任何想法?

如何使用Python + Pandas将空的exceldate插入到oracle中?

我有一个Python应用程序使用pandas来挖掘一些Excel电子表格,并将值插入到Oracle数据库中。 对于具有值的date单元格,这工作正常。 对于空白的date单元格,我插入一个NaT,我原以为会很好,但是在Oracle中正在变成一个奇怪的无效时间,显示为“0001-255-255 00:00:00”(类似于MAXINT或0被转换为时间戳我猜?) In[72]: x.iloc[0][9] Out[72]: NaT 以上是DataFrame中的一些数据,你可以看到它是一个NaT。 但这是我在Oracle看到的 SQL> select TDATE from TABLE where id=5067 AND version=5; TDATE ——— 01-NOVEMB SQL> select dump("TDATE") TABLE where id=5067 AND version=5; DUMP("TDATE") ——————————————————————————– Typ=12 Len=7: 100,101,255,255,1,1,1 我试图做df.replace和/或df.where将NaT转换为无,但我得到任何错误与这些似乎暗示替代无效的方式。 任何方式来确保跨这些数据存储的空date的一致性?

来自pandas.ExcelFile导入的Pandas数据框中未alignment的列

我有一个包含一些交易数据的Excel电子表格。 我试图将其导入pandas数据框: >>> import pandas as pd >>> xlsfile = pd.ExcelFile("/data/transactions.xls") >>> data = xlsfile.parse('data') …乍一看,它看起来不错。 然后我注意到一列(即“运送到区域”)应该包含四个可能的值之一: 经常有价值观是没有道理的。 尽pipe这些价值大部分都是以正确的方式出现的,但实际情况并非如此: >>> len(data['Ship To Region'].unique()) 5007 来自相邻单元格的值以某种方式爬入错误的列中。 >>> for value in data['Ship To Region'].unique(): … print value … Americas EMEA APAC nan Ship To Name Justin Bieber Marie Curie Industries BKS Iyengar […etc…] 你能看到我做错了吗?

我如何创buildembedded式pandas数据框格式化和注释的Excel

我想创build一个带有embedded式pandas数据框和其他数据和格式的“演示就绪”excel文档 一个典型的文档将包括一些标题和元数据,几个数据框与每个dataframe的总和行\列。 DataFrame本身应该被格式化 我发现最好的东西是这个解释了如何在XlsxWriter中使用pandas。 主要的问题是,没有明确的方法来获得embedded式DataFrame的确切位置来添加下面的汇总行(DataFrame的形状是一个很好的估计,但是在渲染复杂的DataFrame时可能并不准确。 如果有一个解决scheme依赖于某种模板,而不是硬编码,它会更好。

小型Excel电子表格使用Python,Pandas和openpyxl加载非常缓慢

我有一个程序,从Excel电子表格(一个小~10张,每张大约100个单元格)读取一些数据,进行一些计算,然后将输出写入电子表格中的单元格。 程序运行很快,直到我修改为将其输出写入与input读取位置相同的Excel文件。 以前,我正在生成一个新的电子表格,然后手动将输出复制到原始文件。 在修改之后,脚本的运行时间从几秒钟跳到大约7分钟。 我运行cProfile进行调查,并得到这个输出,按累计运行时间sorting: ncalls tottime percall cumtime percall filename:lineno(function) 1 0.001 0.001 440.918 440.918 xlsx_transport_calc.py:1(<module>) 1 0.000 0.000 437.926 437.926 excel.py:76(load_workbook) 1 0.000 0.000 437.924 437.924 excel.py:161(_load_workbook) 9 0.000 0.000 437.911 48.657 worksheet.py:302(read_worksheet) 9 0.000 0.000 437.907 48.656 worksheet.py:296(fast_parse) 9 0.065 0.007 437.906 48.656 worksheet.py:61(parse) 9225 45.736 0.005 437.718 0.047 worksheet.py:150(parse_column_dimensions) 9292454 80.960 […]