Tag: 重复

如何在Excel中枚举重复的行?

我有这样的数据: Monkey Donkey Elephant Panda Donkey Donkey Monkey 我想通过一个数字来区分这些行,计算每个重复: Monkey 1 Donkey 1 Elephant 1 Panda 1 Donkey 2 Donkey 3 Monkey 2 我已经设法得到行的重复数量,但我不知道如何去像这样枚举它们。 是甚至可能与Excel,或者我将不得不写一个脚本?

Excel函数用于对重复值进行sorting

我有一个包含两列数据的Excel表,我想排名。 假设我们有以下几点: AB Franz 58 Daniel 92 Markus 37 Jörg 58 我想要一个公式来根据B列对上述数据进行sorting,并且在那里有重复的值(Franz和Jörg)把字母名称放在第一位。 我现在所拥有的仅仅是复制了弗朗茨两次: =INDEX(Name,MATCH(A2,Points,0)) 有人可以build议我的公式/代码将排名数据和按字母顺序排列重复值? 谢谢

通过大数据列表的openpyxl Python迭代

我有一个大型的45000行45列的Excel工作簿。 我想遍历列寻找重复和独特的项目,并花了很长的时间去通过单个列。 有无论如何优化我的代码或使这个更快? 我要么打印信息,要么保存到txt文件。 我在Windows 10和Python 2.7中使用openpyxl模块: from openpyxl import load_workbook, worksheet, Workbook import os #read work book to get data wb = load_workbook(filename = 'file.xlsx', use_iterators = True) ws = wb.get_sheet_by_name(name = 'file') wb = load_workbook(filename='file.xlsx', read_only=True) count = 0 seen = set() uniq = [] for cell in ws.columns[0]: if cell not in […]

将重复的行转移到Excel中的列

我抓取了一些基于URL的名称数据,生成的电子表格如下所示: 正如您所看到的,具有多个名称的URL将被转换为多行。 我想将这些重复的URL转换为列,如下所示: 有人知道我怎么能做到这一点? 我读过类似的线程,提示macros,但似乎这不是一个完全不寻常的问题,所以我期望像谷歌精炼的Excel本身有一个function或公式可以满足? 我将不胜感激任何帮助或input。

我怎样才能在Excel中最近重复的行添加1?

我有一个数据集,在excel中有60多行,大约有20列。 “ID列”有时会重复自己,我想要添加一个列,只返回1是最近的唯一IF如果它重复自己的行。 这里是例子。 我有… ID DATE ColumnX AS1 Jan-2013 DATA AS2 Feb-2013 DATA AS3 Jan-2013 DATA AS4 Dec-2013 DATA AS2 Dec-2013 DATA 我想要… ID DATE ColumnX New Column AS1 Jan-2013 DATA 1 AS2 Feb-2013 DATA 0 AS3 Jan-2013 DATA 1 AS4 Dec-2013 DATA 1 AS2 Dec-2013 DATA 1 我一直在尝试sorting和嵌套的组合,但它取决于我的数据总是在相同的顺序(以便它查找上一行中的ID)。 奖励点:考虑我的数据集,如果相当大的Excel,所以最有效的代码,不会吃掉处理器将不胜感激!

忽略数据validation列表中的重复条目

假设我们有三列如下: ID Sys Code 1 Roma A4 2 Roma A5 2 Roma A5 2 Roma A7 2 Lima A7 3 Lima B1 4 Lima C1 4 Lima D3 4 Lima D5 5 Alpha E9 6 Alpha E2 从上面可以看出,所有列都可能包含重复项,目标是在不同的工作表中使用数据validation列表中的三个单元格。 一个典型的情况是: 用户selectID(例如2),然后在下一个单元格中selectSys(例如Roma),该列表将根据在前一个单元格上select的ID(仅显示“Roma”和“Lima”)进行过滤,最后,他select代码,这将根据所选的系统进行过滤(仅显示“A5”和“A7”)。 我目前使用的方法是有一个单独的唯一ID列表,这是在第一个validation列表上使用,然后在第二个validation列表上我使用下面的公式来select相应的Sys: =OFFSET(IDS_Start,MATCH(A1,IDS,0)-2,1,COUNTIF(IDS,A1),1) 其中IDS_Start是对列表中第一个ID的引用,IDS是对整个列ID的引用,A1是用户selectID的单元。 上面的问题是,它会导致重复显示在第二个validation列表,有没有办法解决这个问题?

C#algorithm(大数据),用于查找Excel中多个列和工作表中的重复行

我正在尝试devise一种algorithm,用于跨多个工作表查找Excel文件中的重复行。 假设如下: 1)文件可能非常大。 考虑一个文件有10个工作表(每个1,048,576行),并说30列的数据 2)重复行可能不在同一个工作表上。 例如Sheet1 / Row20可能是Sheet5 / Row123456的副本 3)为了确定一行是否与另一行重复,可以使用其中一列或多列作为用户指定的条件(并非总是所有的列必须相同,用户可以例如指定重复的时间第2,3和5列是相同的) 4)底层数据的顺序不能改变(不先sorting数据,然后检查相邻行)。 5)algorithm必须具有记忆效率。 将一行中所有列的值存储在字典中将占用太多的内存。 不是所有的数据都可以同时存储在内存中(读入.NET multidim数组),因为它已经存储在Excel中,所以这会使内存使用量增加一倍。 6)algorithm必须使用Excel对象模型最小化IO。 不断从Excel中检索单行数据(或执行其他内置Excel互操作)可能会很慢。 到目前为止,我对algorithm有两个不同的想法: algorithm1) a)创build一个字典<int,List <Tuple <int,int>,其中字典键是特定行中列中所需值的哈希值,List <Tuple <int,int>是工作表的列表计算到该散列码的索引/行索引 b)一次从Excel中读取大量的数据(比如说5万行)并填写词典。 c)findList中Count> 1的字典中的所有条目,然后遍历所有行,并通过再次从Excel中读取数据并比较实际值来检查是否有重复 algorithm2) 类似于algorithm1,但是使用两个(或者三个)不同的和独立的散列函数来创build一个Tuple <int,int>或者Tuple <int,int,int>作为Dictionary的键。 如果散列函数是独立的,那么除非行实际上是相等的,否则将有一个接近0%的概率,即在一个特定的键上存在冲突。 步骤1c)因此可以省略。 要得到在algo1中使用的hashkey,我会做这样的事情: private int GetHashKey(List<object> columns) { int hash = 23; foreach (var o in columns) hash = hash * 31 + […]

仅删除可见行的可见重复项

新的在VBA。 我正在使用下面的代码来标识和删除Sheet1中的行在Sheet2的列C中具有重复值的行,但我需要的代码不会删除已从filter隐藏的行。 我搜查了四周,并尝试使用.SpecialCells(xlCellTypeVisible),但我不知道在哪里放置它。 我认为另一种select是使用EntireRow.Hidden语法,但我不知道如何合并。 任何帮助表示赞赏。 Sub DeleteDuplicates() Application.ScreenUpdating = False Dim Row As Long Dim FoundDup As Range Sheets("Sheet1").Select For Row = Range("C65536").End(xlUp).Row To 2 Step -1 Set FoundDup = Sheets("Sheet2").Range("C:C").Find(Cells(Row, 3), LookIn:=xlValues, lookat:=xlWhole) If Not FoundDup Is Nothing Then Cells(Row, 3).EntireRow.Delete End If Next Row Application.ScreenUpdating = True End Sub

如何删除excel中单元格内逗号分隔的重复项?

我处理了一个非常长的Excel文件(最多11000行和7列),在单元格内有许多重复的数据。 我正在寻找一个macros来摆脱它,但找不到任何。 一个这样的细胞的例子: Ciencias de laEducación,Educación,Pedagogía,Ciencias de laEducación,Educación,Pedagogía 它应该看起来像: Ciencias de laEducación,Educación,Pedagogía 我怎么能摆脱成千上万的重复(更不用说额外的孤儿,逗号)?

基于两个唯一的ID合并行,并结合excel中的信息

我在excel中有一组这样的列: Size Volume Post Origin Destination Size20 Size40 Size60 WN HONG KONG Denmark 13 132 7 DH DALIAN Spain 39 136 19 DN HONG KONG Denmark 13 132 7 DH DALIAN Spain 0 146 23 WN HONG KONG Denmark 11 19 5 DH HONG KONG Denmark 21 5 17 而且我根据源和目标ID(通过使用Excel公式)合并行遇到问题,像这样> Size Volume Post Origin Destination […]