在列表中find类似的string并计算它们 – 可能是现有的软件

我有个问题。 所以我在那里有一个excel列表,格式如下:

Columbia University | YES Washington University | YES University of Columbia | NO Columbia Uni | NO Columbia University, New York | YES Washington Uni | NO Columbia University | YES University of Washington | YES Washington University | YES Washington Uni | NO 

结果应该如下

 Columbia University | 3 X YES Washington University | 3 X YES 

现在的挑战是告诉程序/软件,代表同一所大学的这些不同string实际上是相同的。 你有一个自动学习的程序的想法。 也许给程序用户一些build议,如:这可能是哥伦比亚大学,对不对?

如果有人有解决scheme,这将是非常好的。 我真的不介意你知道现有的scheme可以解决这个问题吗? 那会更好!

非常感谢你的帮助!

曼努埃尔

只要想一想,你可以有一个帮助桌,你可以在一列中列出独特的学院,在右边的一个单元格中可以find“实际的等价物”。 IE:

 Columbia University Columbia University Columbia Uni Columbia University Washington Uni Washington University Washington University Washington University 

只要用Vlookup就可以回到“实际”大学。 那太多了? 它不会完全“学习”,但它会让你在同一时间。 随着你越来越多的学院/名字,你的名单将更加强大。

列出你的数据如下A列和B列

 Col A |Col B|Col C|Col D |Col E Columbia University | YES|YES |Columbia |3 Washington University | YES|YES |Washington|3 University of Columbia | NO |NO | Columbia Uni | NO |NO | Columbia University, New York | YES|YES | Washington Uni | NO |NO | Columbia University | YES|YES | University of Washington | YES|YES | Washington University | YES|YES | Washington Uni | NO |NO | 

然后在Col C使用

 =TRIM(B1) 

然后在Col D写下大学名字,在E栏下面用

 =COUNTIFS(A:A,"*" &D1&"*",C:C,"YES")