Яка різниця між відсутніми даними, які можна ігнорувати, і даними, які не можна ігнорувати?
Інтуїтивно зрозуміло, що відсутні дані не можна ігнорувати, якщо ймовірність спостереження за елементом даних не залежить від значення цього елемента даних. І навпаки, відсутні дані не можна ігнорувати, якщо ймовірність спостереження за елементом даних залежить від значення цього елемента даних.
Відсутні дані можна класифікувати як: повністю відсутні випадково (MCAR), коли ймовірність відсутності спостереження не залежить як від спостережуваних, так і від неспостережуваних даних; випадкова відсутність (MAR), коли ймовірність пропуску спостереження залежить лише від спостережуваного; і пропав не випадково (MNAR) …
Є чотири якісно відмінних типи відсутніх даних. Відсутні дані: структурно відсутній, повністю відсутній випадково (MCAR), відсутній випадковим чином або не можна проігнорувати (також відомий як відсутній випадковим чином).
Іншими словами, дані є MCAR, якщо причина відсутності значень у результатах або предикторах не має нічого спільного з самими значеннями даних, незалежно від того, спостерігаються чи відсутні. Відсутні дані вважаються MAR, якщо ймовірність відсутності не залежить від відсутніх значень з огляду на дані спостереження.
«Повністю пропущено випадково» та «Випадково пропало» вважаються «ігнорованими», оскільки ми не повинні включати будь-яку інформацію про самі відсутні дані, коли ми маємо справу з відсутніми даними.