Tag: 重复

如何在Excel中枚举重复的行？: 我有这样的数据： Monkey Donkey Elephant Panda Donkey Donkey Monkey 我想通过一个数字来区分这些行，计算每个重复： Monkey 1 Donkey 1 Elephant 1 Panda 1 Donkey 2 Donkey 3 Monkey 2 我已经设法得到行的重复数量，但我不知道如何去像这样枚举它们。是甚至可能与Excel，或者我将不得不写一个脚本？

Excel函数用于对重复值进行sorting: 我有一个包含两列数据的Excel表，我想排名。假设我们有以下几点： AB Franz 58 Daniel 92 Markus 37 Jörg 58 我想要一个公式来根据B列对上述数据进行sorting，并且在那里有重复的值（Franz和Jörg）把字母名称放在第一位。我现在所拥有的仅仅是复制了弗朗茨两次： =INDEX(Name,MATCH(A2,Points,0)) 有人可以build议我的公式/代码将排名数据和按字母顺序排列重复值？谢谢

通过大数据列表的openpyxl Python迭代: 我有一个大型的45000行45列的Excel工作簿。我想遍历列寻找重复和独特的项目，并花了很长的时间去通过单个列。有无论如何优化我的代码或使这个更快？我要么打印信息，要么保存到txt文件。我在Windows 10和Python 2.7中使用openpyxl模块： from openpyxl import load_workbook, worksheet, Workbook import os #read work book to get data wb = load_workbook(filename = 'file.xlsx', use_iterators = True) ws = wb.get_sheet_by_name(name = 'file') wb = load_workbook(filename='file.xlsx', read_only=True) count = 0 seen = set() uniq = [] for cell in ws.columns[0]: if cell not in […]

将重复的行转移到Excel中的列: 我抓取了一些基于URL的名称数据，生成的电子表格如下所示：正如您所看到的，具有多个名称的URL将被转换为多行。我想将这些重复的URL转换为列，如下所示：有人知道我怎么能做到这一点？我读过类似的线程，提示macros，但似乎这不是一个完全不寻常的问题，所以我期望像谷歌精炼的Excel本身有一个function或公式可以满足？我将不胜感激任何帮助或input。

我怎样才能在Excel中最近重复的行添加1？: 我有一个数据集，在excel中有60多行，大约有20列。 “ID列”有时会重复自己，我想要添加一个列，只返回1是最近的唯一IF如果它重复自己的行。这里是例子。我有… ID DATE ColumnX AS1 Jan-2013 DATA AS2 Feb-2013 DATA AS3 Jan-2013 DATA AS4 Dec-2013 DATA AS2 Dec-2013 DATA 我想要… ID DATE ColumnX New Column AS1 Jan-2013 DATA 1 AS2 Feb-2013 DATA 0 AS3 Jan-2013 DATA 1 AS4 Dec-2013 DATA 1 AS2 Dec-2013 DATA 1 我一直在尝试sorting和嵌套的组合，但它取决于我的数据总是在相同的顺序（以便它查找上一行中的ID）。奖励点：考虑我的数据集，如果相当大的Excel，所以最有效的代码，不会吃掉处理器将不胜感激！

忽略数据validation列表中的重复条目: 假设我们有三列如下： ID Sys Code 1 Roma A4 2 Roma A5 2 Roma A5 2 Roma A7 2 Lima A7 3 Lima B1 4 Lima C1 4 Lima D3 4 Lima D5 5 Alpha E9 6 Alpha E2 从上面可以看出，所有列都可能包含重复项，目标是在不同的工作表中使用数据validation列表中的三个单元格。一个典型的情况是：用户selectID（例如2），然后在下一个单元格中selectSys（例如Roma），该列表将根据在前一个单元格上select的ID（仅显示“Roma”和“Lima”）进行过滤，最后，他select代码，这将根据所选的系统进行过滤（仅显示“A5”和“A7”）。我目前使用的方法是有一个单独的唯一ID列表，这是在第一个validation列表上使用，然后在第二个validation列表上我使用下面的公式来select相应的Sys： =OFFSET(IDS_Start,MATCH(A1,IDS,0)-2,1,COUNTIF(IDS,A1),1) 其中IDS_Start是对列表中第一个ID的引用，IDS是对整个列ID的引用，A1是用户selectID的单元。上面的问题是，它会导致重复显示在第二个validation列表，有没有办法解决这个问题？

C＃algorithm（大数据），用于查找Excel中多个列和工作表中的重复行: 我正在尝试devise一种algorithm，用于跨多个工作表查找Excel文件中的重复行。假设如下： 1）文件可能非常大。考虑一个文件有10个工作表（每个1,048,576行），并说30列的数据 2）重复行可能不在同一个工作表上。例如Sheet1 / Row20可能是Sheet5 / Row123456的副本 3）为了确定一行是否与另一行重复，可以使用其中一列或多列作为用户指定的条件（并非总是所有的列必须相同，用户可以例如指定重复的时间第2,3和5列是相同的） 4）底层数据的顺序不能改变（不先sorting数据，然后检查相邻行）。 5）algorithm必须具有记忆效率。将一行中所有列的值存储在字典中将占用太多的内存。不是所有的数据都可以同时存储在内存中（读入.NET multidim数组），因为它已经存储在Excel中，所以这会使内存使用量增加一倍。 6）algorithm必须使用Excel对象模型最小化IO。不断从Excel中检索单行数据（或执行其他内置Excel互操作）可能会很慢。到目前为止，我对algorithm有两个不同的想法： algorithm1） a）创build一个字典<int，List <Tuple <int，int>，其中字典键是特定行中列中所需值的哈希值，List <Tuple <int，int>是工作表的列表计算到该散列码的索引/行索引 b）一次从Excel中读取大量的数据（比如说5万行）并填写词典。 c）findList中Count> 1的字典中的所有条目，然后遍历所有行，并通过再次从Excel中读取数据并比较实际值来检查是否有重复 algorithm2）类似于algorithm1，但是使用两个（或者三个）不同的和独立的散列函数来创build一个Tuple <int，int>或者Tuple <int，int，int>作为Dictionary的键。如果散列函数是独立的，那么除非行实际上是相等的，否则将有一个接近0％的概率，即在一个特定的键上存在冲突。步骤1c）因此可以省略。要得到在algo1中使用的hashkey，我会做这样的事情： private int GetHashKey(List<object> columns) { int hash = 23; foreach (var o in columns) hash = hash * 31 + […]

仅删除可见行的可见重复项: 新的在VBA。我正在使用下面的代码来标识和删除Sheet1中的行在Sheet2的列C中具有重复值的行，但我需要的代码不会删除已从filter隐藏的行。我搜查了四周，并尝试使用.SpecialCells（xlCellTypeVisible），但我不知道在哪里放置它。我认为另一种select是使用EntireRow.Hidden语法，但我不知道如何合并。任何帮助表示赞赏。 Sub DeleteDuplicates() Application.ScreenUpdating = False Dim Row As Long Dim FoundDup As Range Sheets("Sheet1").Select For Row = Range("C65536").End(xlUp).Row To 2 Step -1 Set FoundDup = Sheets("Sheet2").Range("C:C").Find(Cells(Row, 3), LookIn:=xlValues, lookat:=xlWhole) If Not FoundDup Is Nothing Then Cells(Row, 3).EntireRow.Delete End If Next Row Application.ScreenUpdating = True End Sub

如何删除excel中单元格内逗号分隔的重复项？: 我处理了一个非常长的Excel文件（最多11000行和7列），在单元格内有许多重复的数据。我正在寻找一个macros来摆脱它，但找不到任何。一个这样的细胞的例子： Ciencias de laEducación，Educación，Pedagogía，Ciencias de laEducación，Educación，Pedagogía 它应该看起来像： Ciencias de laEducación，Educación，Pedagogía 我怎么能摆脱成千上万的重复（更不用说额外的孤儿，逗号）？

基于两个唯一的ID合并行，并结合excel中的信息: 我在excel中有一组这样的列： Size Volume Post Origin Destination Size20 Size40 Size60 WN HONG KONG Denmark 13 132 7 DH DALIAN Spain 39 136 19 DN HONG KONG Denmark 13 132 7 DH DALIAN Spain 0 146 23 WN HONG KONG Denmark 11 19 5 DH HONG KONG Denmark 21 5 17 而且我根据源和目标ID（通过使用Excel公式）合并行遇到问题，像这样> Size Volume Post Origin Destination […]