Удаление Nan значений
Есть датасет с большим количеством NaN значений:
shape (12988, 45)
vydacha_dt 0
activation_dt 0
pro0 0
pro1 0
pro2 0
chastotta 0
tran_type_month0 0
tran_type_month1 0
tran_type_month2 0
FREE_LIMIT0 2
FREE_LIMIT1 2
FREE_LIMIT2 2
limit 0
login_0 116
login_1 585
login_2 1062
withdraw0 0
withdraw1 0
withdraw2 0
cred_tran_nopartnershare0 6923
cred_tran_nopartnershare1 4853
cred_tran_nopartnershare2 4589
cl_age 0
GENDER_ID 1
tran_prod 315
tran_remont 315
tran_inet 315
CRED_TRAN_TOTAL 0
CREDIT_TRAN_AMT_last_month 3327
CL_CHILDREN_NO 1
City_Population_category 890
cl_income 0
count_tran2 0
counttran1 0
count_tran0 0
tran_amt2 0
tran_amt1 0
tran_amt0 0
avg_amt_prod_3m 5006
avg_amt_vnebs_3m 1518
avg_amt_avto_3m 10479
avg_amt_inet_3m 9044
churn 0
product_type 0
top_cat 1296
dtype: int64
Критично ли будет удалить строки или лучше заменить средним/медианой? Опасаюсь, что удаление почти половины значений, хоть и нулевых скажется потом на точности модели
Источник: Stack Overflow на русском