Tag: 水壶

第一列中的空值是否阻止在Pentaho Spoon中导入Excel文件?

我正尝试使用Pentaho Kettle / Spoon中的“Excelinput”转换来导入Excel文件。 勺子为第67行(第一列中有一个空值)吐出一个'NullPointerException'。 (前66列在第一列中有非空值。) 这里是错误日志: 2011/07/19 15:07:17 – Excel Input.0 – ERROR (version 4.1.0-stable, build 14410 from 2010-11-16 16.43.28 by buildguy) : Error processing row from Excel file [D:\Documents and Settings\kdrapkin\Desktop\Dataset creation\PDA data Saudi Arabia\input files\100 w.xlsx] : java.lang.NullPointerException 2011/07/19 15:07:17 – Excel Input.0 – ERROR (version 4.1.0-stable, build 14410 from 2010-11-16 16.43.28 […]

Pentaho,多input多input

我一直想弄清楚如何设置Pentaho为作业的每个input写不同的文件。 我的转换将很快能够从FTP获取.txt文件,数量可变的文件,我现在正在进行转换的方式,无论从文件夹(FTP或本地)获得的文件数量是多less,它都会生成一个大的XLS输出,输出端的信息都是正确的,它们都与我想精确提取的数据相匹配,但是为了组织这些文件,我需要pentaho从一个input创build一个文件。 如果要创build文件(//PentahoIn0001.txt,//PentahoIn0002.txt,//PentahoIn0003.txt),我想要现在它只是创build一个具有所有三个input的数据值的单个文件。 到目前为止,我已经尝试了几种方式,没有任何结果,甚至包括来自这里和外部的其他几个援助转型和工作,但它根本没有。

根据两列将这个csv / xls拆分成单独的文件?

我有一个35 MB的Excel文件,这些列: Index, Name, Year, AgeGroup1, AgeGroup2, AgeGroup3 […] 1, Sweden, 1950, 20, 25, 27 2, Norway, 1950, 22, 27, 28 2, Sweden, 1951, 24, 24, 22 我想根据“名称”列将文件拆分成多个csv文件(最好也根据此列中的值命名文件)。 我也想按“年份”对文件进行sorting(但这当然可以事先在Excel中完成)。 一个bash脚本或水壶/ Pentaho解决scheme将不胜感激。 (替代品也是受欢迎的。)

ETL – 如何将表标题作为字段值添加到Pentaho Spoon中的每个后续行

我是Pentaho Spoon(水壶)的新手,有以下任务: 有一个excel表,它可能是这样的: history class name first name id Doe John 213 Muster Max 118 biology class name first name id Parker Peter 844 问题是在一个xls文件里有更多的表格。 在这个例子中,有历史课的学生和生物课的学生。 我需要输出的是:每个学生都有一个新领域的所有学生的表格,说明他是哪个class级的一部分。 例: name first name id class Doe John 213 history class Muster Max 118 history class Parker Peter 884 biology class (我的例子极其简单) 如何将input表转换为输出表? 感谢您的帮助!

如何使用复杂的标题在Pentaho壶中inputExcelinput?

我有几个这样的Excel模型文件: | 名称| 年龄| 类| 跳转| 游泳| 运行| 性别| | | | | | 100m | 500m | 1000m | 100m | 200m | 1000m | | ————————————————– —————————– | 吉姆| | | | | | | | | | | ————————————————– —————————– | 汤姆| | | | | | | | | | | […]

从当前行向后查找第一个非空值扫描行

软件 我正在使用Pentaho数据集成5.4 input数据和说明 从文件input数据(简化,有更多的列): number name 1009 ProductA 2150 ProductB 3235 ProductC ProductD ProductE 1234 ProductF 7765 ProductG 4566 ProductH ProductI 9907 ProductJ 问题是,我有一个Excel文件格式的xlsx ,其中包含合并单元格的数据,对于一个id值,有1..n行值。 尽pipe没有合并一列(参见示例id=3 , id=6 ),但是将该文件转换为下一行(除第一个以外)的csv值后仍然丢失。 我使用步骤Add sequence生成一个sequence ,input按原始存储在文件中的方式sorting。 实现目标的步骤 基本上我需要做的是: 查找sequence_number小于current_row.sequence_number第一个非null值 将字段name的值连接到匹配的行 继续扫描sequence_number高于上次扫描的下一行 如前所述,这种情况下可能有1..n行值。 预期产出 number name 1009 ProductA 2150 ProductB 3235 ProductC; ProductD; ProductE 1234 ProductF 7765 ProductG 4566 ProductH; […]

通过反向工程deviseExcel电子表格来devise报告

我正在尝试生成最终应以Excel格式导出的报告。 报告的模板在Excel中可用。 有没有一种聪明的方法来“deviseExcel”来devise报告(如果可能的话,考虑细胞的位置)。 我想过导入一个HTML版本的报告,但我想知道是否已经有一个标准的方法来做到这一点,然后开始重新发明轮子。

我如何做我的Pentaho报告采取Excel数据源文件一起BA / BI服务器?

我想创build基于Excel文件的Pentaho报表(带报表devise器)。 但是,我想要这种Excel文件的通用types,并使用Pentaho数据集成(Kettle)转换从它select一个特定的子集。 我可以使它与Pentaho报表devise器一起工作:我创build了一个转换数据源,它转而读取一个Excel文件,所有三个文件(报表,转换和Excel)位于相同的目录中。 如何在发布到BA(BI)服务器时将其工作? 我已经遵循这个答案( 在Pentaho BI服务器中使用PDI转换作为报表参数的数据源 ),让Pentaho BA服务器加载我的转换,所以现在我可以有一个基于从Report Designer文件本身加载的转换的报表。 我的问题是我如何将Excel文件作为转换源使用? 我试图把它作为一个资源,并引用它作为文件名没有path在转换,但它没有奏效。

Pentaho,如何从单元格中提取数据

我是Pentaho的新用户,也是Excel工作表的一个相当弱的用户,我需要Pentaho做的是图像中描述的内容。 在结论之前的步骤中,我有几个具有不同数据的单元格。 我需要将它们合并到一个单元格中,并将所有正确的数据合并到一起。 我尝试了Normaliser/De-Normaliser ,我无法正常工作。 在Excel中,我所做的基本上是根据这些行常见的一个键将数据上移到我想要的单元格中。 让我知道是否有人需要进一步的信息。 在转换中我收到一个格式化的文本文件input,直到第25步(obs)我只读了文本的第一行,这是我需要的大部分信息所在的地方,通过模式还有其他可能的9在每个条目中,有些条目最多有23行,其他条目只有6条。 我可以从第1行中提取大部分数据,但是我还需要从其他两行开始的数据,比较两个最初的数字,然后从这些行中切割出需要的string,在做“filter行”步骤之前,那些信息单元不会聚集在同一行,我需要它们全部在同一行,因为我发布了第一个图像,但是我找不到这样做的步骤,或者我没有足够的知识来使所述步骤function正确。 如果你需要更多的信息,请让我知道。 我使用了这么多步骤,因为在某些时候,我会为其中的大部分添加触发器和validation,以确保数据的完整性。

将数据库连接parameter passing给Kettle aka PDI表从Excel中dynamicinput步骤

我有一个要求,每当我运行我的Kettle作业时,数据库连接参数必须在每次运行时从一个Excel源中dynamic获取。 说我有一个excel列名称:主机名,用户名,数据库,密码。 我想要传递这些连接参数到我的表input步骤dynamic,每当作业运行。 这正是我想要做的。