Tag: levenshtein距离

Levenshtein距离/string匹配algorithm的短语

我有两个电子表格,每个电子表格都提供有关在工作networking上运行的一大堆应用程序的信息。 他们是由两个独立的人创造的,他们从来没有见过这样的人。 因此,它们给予应用程序的名称在表单之间是不固定的。 但是,它们是相似的。 例如,可能会调用一个应用程序“Office 2010”,另一个“MS Office 10”或其他东西。 我已经查阅了Levenshteinalgorithm,但是这似乎只适用于单词顺序不变的单个单词或短语,而只有拼写不同。 (我不是计算机科学家,请随时纠正我)。 因此,我正在寻找一种algorithm,对于一个表中的每个名称,可以遍历另一个表中的每个名称并find最接近的匹配。 不一定是完美的,任何事情都会有所帮助。 有任何想法吗? 感谢所有能够帮助的人。