大pandas将列(A)与其他列(B)进行比较,并返回列(A)中存在的唯一值

我正在面临一个问题,同时比较两列非常数据包含约5至6缺乏细胞。 我使用countif公式来检查A列中是否存在值B列。但是,这需要花费大量的时间来计算,我停止了使用Excel的任务。 而且我正在pandas中find另一种方法来做这件事。

是否可以通过比较列Bfind列A中唯一值的列表。请build议。

A栏:585256

B栏:556245

在这里输入图像说明

嘿它很安静,使用默认的python数据结构是设置。

下面是返回设置差异的简单片段。

 def get_difference(file_1, file_2): data_1 = set(open(file_1, encoding='utf-8').read().splitlines()) data_2 = set(open(file_2, encoding='utf-8').read().splitlines()) return data_1 - data_2 

我用500000行的数据检查了性能。 和脚本在2秒内产生的结果。