Удаление тех строк в датафрейме, которые есть в другом датарейме. PySpark

Рейтинг: 0Ответов: 1Опубликовано: 06.04.2023

Проблема следующая: есть два датафрейма, в одном около 1050000 строк, в другом 470000. Все те строки, из которых состоит меньший датафрейм, есть в первом. Как мне удалить из первого датафрейма всё то, что есть во втором? Есть столбец DateTime, который включает в себя и дату, и время, то есть любая строка уникальна, Я пытаюсь опираться как-то на него, но вылезает либо ошибка, либо не то что нужно.

Ответы

▲ 1

Просто надо сделать правильный join между датафреймами - в данном случае - left anti join:

df1.join(df2, ["DateTime"],"leftanti")