计数满足条件和删除数据的重复数据

示例文件已上传到MediaFile 。

背景信息

第1部分：在示例文件“Sheet1”

a. Values in “Column A” are the original name. For example from Cell A1: “>hg19_refGene_NM_000392_0 range=chr10:101542463-101542634 5'pad=0 3'pad=0 strand=+ repeatMasking=none” b. Values in “Column B” is a value that correspond to values in Column A, for example from Cell B1 which correspond to value in Cell A1: “ABCC2”

第二部分：在示例文件“Sheet2”

 a. In the Sheet2, the values from Sheet1 have been separated to clarify the data because in Sheet1, everything is packed in one cell. b. Column A represents “GENE”, which refers to the value in Column B in Sheet1, for example, “ABCC2” from Section 1 of this article. c. Column B represents “refGENE”, an example of refGENE is “NM000392” which come from the original name from “Sheet1” d. Column C represents “CHROMOSOME”, this is another value that was derived from Values in Column A of Sheet1, for example, “chr10” e. Similar Idea, “EXON START” came from the original name in Column A of Sheet1, for example “101542463” f. And “EXON END” came from the original name in Column A of Sheet1, for example “101542634”

面临的挑战是开发一个可以解决以下需求的程序：

要求1：计算每个基因，观察每个重复基因的次数，例如：

表格例子refGENE COUNT NM000927 29 NM00078 32 NM00042 32。。。。。。

在这里输入图像说明

注意：我这样做的方式是在Excel中使用SUMPRODUCT，但是，我不知道如何将所有内容放在一个简单的表格中。

要求2：这需要比较两个不同行中的值，请注意，这需要使用“Sheet1”中的原始名称。请不要使用“Sheet2”中的分隔值。基本上是查询每一行，如果基因，染色体，EXONSTART，EXON END是相同的，那么删除频率最低的行refgene。我将在下面进一步解释。

在“Shee1”中有“Original Name”和“GENE”，

步骤1：比较列B中的值是否相同。例如，比较行1和行2时，有ABCC2和ABCC2 。这满足条件，所以继续步骤2，否则继续比较来自不同行的GENE。

步骤2：比较来自不同行的“chr”值，与上一步相同。第1行有chr10 ，第2行有chr10 ，因为它们是相同的，继续下一步，否则继续。

第3步：现在比较“外显子开始” – 数字看起来像101542463第1行和第2行数字看起来像101544365 ，现在他们是不一样的，保存该文件，继续前进。想象一下，如果数字是相同的，则继续比较“外显子结束”，这是第4步。

步骤4：假设来自两个不同行的“外显子开始”是相同的，则比较“外显子结束”。第1行的数字看起来像101542634 ，第2行的“外显子末端”的数字看起来像101544538 。与上面的条件相同，如果不同，请单独保留文件并继续比较下一个GENE。

以下是需要注意的部分，如果相同，即“GENE”相同，“chr”相同，“外显子开始”和“外显子结束”是相同的。最后，一切都是一样的，这意味着有一个重复的行。现在，重复的行将被删除。但删除行的条件是什么？这将使我们回到我们从要求1中解决的挑战。请记住，所有refGENE的出现次数已被计算在内。回忆NM000927 29倍， NM000927 32倍。要删除的“GENE”行是包含NM000927 。

但是，请logging下所有已删除的数据，以及所有剩余的数据，最好用表格。

我同意@Siddharth计数实例，即数据透视表与行标签= GENE ，Σ值=计数refGene 。

可能“重复”解决scheme将（至less开始）在顶部插入行，select列A，sorting和filter/高级/复制到另一个位置=（说）C1 /只有唯一logging/确定。那应该给你一个比你开始的行less35行的列表。

要确定哪些行是重复的，请将列A复制到另一列（比如D），replace> （无），然后在E2中input=COUNTIF(D:D,D2) ，然后双击单元格的右下angular。 1 =唯一，其他都是实例的数量。

计数满足条件和删除数据的重复数据

Delphi控制Excel – 创build数据透视表和图表

用数据透视表与macros来巩固基于字段名称的值？

执行search并获得所有的匹配

EXCEL公式，PIVOT TABLE和VBA代码之间还有什么更好的performance？

在Excel中“旋转”一个表格

使用Excel显示date范围内发生的次数

最大值和最小值根据不同date的相同作业名称和小时计算

QLikView VBScript在数据透视表中创build字段

具有多行的枢轴表都具有相同的级别层次结构

如何添加条件到数据透视表，显示部分或操作的源数据