计数满足条件和删除数据的重复数据

示例文件已上传到MediaFile 。

背景信息

第1部分:在示例文件“Sheet1”

a. Values in “Column A” are the original name. For example from Cell A1: “>hg19_refGene_NM_000392_0 range=chr10:101542463-101542634 5'pad=0 3'pad=0 strand=+ repeatMasking=none” b. Values in “Column B” is a value that correspond to values in Column A, for example from Cell B1 which correspond to value in Cell A1: “ABCC2” 

第二部分:在示例文件“Sheet2”

 a. In the Sheet2, the values from Sheet1 have been separated to clarify the data because in Sheet1, everything is packed in one cell. b. Column A represents “GENE”, which refers to the value in Column B in Sheet1, for example, “ABCC2” from Section 1 of this article. c. Column B represents “refGENE”, an example of refGENE is “NM000392” which come from the original name from “Sheet1” d. Column C represents “CHROMOSOME”, this is another value that was derived from Values in Column A of Sheet1, for example, “chr10” e. Similar Idea, “EXON START” came from the original name in Column A of Sheet1, for example “101542463” f. And “EXON END” came from the original name in Column A of Sheet1, for example “101542634” 

面临的挑战是开发一个可以解决以下需求的程序:

要求1:计算每个基因,观察每个重复基因的次数,例如:

表格例子refGENE COUNT NM000927 29 NM00078 32 NM00042 32。 。 。 。 。 。

在这里输入图像说明

注意:我这样做的方式是在Excel中使用SUMPRODUCT,但是,我不知道如何将所有内容放在一个简单的表格中。

要求2:这需要比较两个不同行中的值,请注意,这需要使用“Sheet1”中的原始名称。 请不要使用“Sheet2”中的分隔值。 基本上是查询每一行,如果基因,染色体,EXONSTART,EXON END是相同的,那么删除频率最低的行refgene。 我将在下面进一步解释。

在“Shee1”中有“Original Name”和“GENE”,

步骤1:比较列B中的值是否相同。 例如,比较行1和行2时,有ABCC2ABCC2 。 这满足条件,所以继续步骤2,否则继续比较来自不同行的GENE。

步骤2:比较来自不同行的“chr”值,与上一步相同。 第1行有chr10 ,第2行有chr10 ,因为它们是相同的,继续下一步,否则继续。

第3步:现在比较“外显子开始” – 数字看起来像101542463第1行和第2行数字看起来像101544365 ,现在他们是不一样的,保存该文件,继续前进。 想象一下,如果数字是相同的,则继续比较“外显子结束”,这是第4步。

步骤4:假设来自两个不同行的“外显子开始”是相同的,则比较“外显子结束”。 第1行的数字看起来像101542634 ,第2行的“外显子末端”的数字看起来像101544538 。 与上面的条件相同,如果不同,请单独保留文件并继续比较下一个GENE。

以下是需要注意的部分,如果相同,即“GENE”相同,“chr”相同,“外显子开始”和“外显子结束”是相同的。 最后,一切都是一样的,这意味着有一个重复的行。 现在,重复的行将被删除。 但删除行的条件是什么? 这将使我们回到我们从要求1中解决的挑战。请记住,所有refGENE的出现次数已被计算在内。 回忆NM000927 29倍, NM000927 32倍。 要删除的“GENE”行是包含NM000927

但是,请logging下所有已删除的数据,以及所有剩余的数据,最好用表格。

我同意@Siddharth计数实例,即数据透视表与行标签= GENE ,Σ值=计数refGene

可能“重复”解决scheme将(至less开始)在顶部插入行,select列A,sorting和filter/高级/复制到另一个位置=(说)C1 /只有唯一logging/确定。 那应该给你一个比你开始的行less35行的列表。

要确定哪些行是重复的,请将列A复制到另一列(比如D),replace> (无),然后在E2中input=COUNTIF(D:D,D2) ,然后双击单元格的右下angular。 1 =唯一,其他都是实例的数量。