Как проанализировать данные о трудоустройстве?
Стоит задача определить качество подготовки ВУЗа, студента которого задействованы в системе по подбору персонала и поиску работы(системы не существует в реальности, это модель, данные выдуманы). В системе есть данные о дате создания резюме студентом, дате нахождения им работы, также есть данные о том, как работодатель оценивает навыки студента после работы с ним(после увольнения или во время работы). Работа может быть стажировкой, практикой и просто работой. Есть вариант использовать следующие показатели: процент трудоустроившихся, продолжительность работы, средняя оценка работодателем навыков студента, срок от регистрации до нахождения первой работы. Довольно хороши показатели из этой статьи, но проблему обозначил ниже. Да и там в контексте сравнения, что мне тоже необходимо будет делать, однако сначала хотя бы один ВУЗ оценить и перевести в воспринимаемые обычными людьми единицы(проценты, 5-ти балльная шкала или любая другая). Собственно первая проблема - продолжительность работы отчасти определяется не только тем, как себя проявляет студент, но и видом работы - стажировка, практика и тд. Думаю понятно. Есть вариант изначально делить данные на стажировка/практика/работа и по ним отдельно считать продолжительность каждого вида, но потом проблема - как это собрать воедино, чтобы интерпретировать. О навыках - оценка довольно объективная, потому что речь о трудоустройстве в IT-сфере - это про soft(коммуникабельность, умение работать в команде и тд) и hard(языки программирования и просто навыки по типу вышмата, бизнес-анализа). Думал просто находить среднее без выбросов, выбросы определять с помощью 25% и 75% квартилей, затем просто отсекать их.
В общем - какие рекомендации по показателям и по сведению их всех к какому-то интерпретируемому виду, возможно для дальнейшего ранжирования? Куда копать, что искать?