Data Masters World Cup Predictions
21 ноември 2022 година. Сè уште збунети дека сред зима треба да гледаме Светско во фудбал и под импресии дека Катар нема што да бара меѓу 32-те најдобри репрезентации на светот по отварањето на првенството, иницијалната замисла за компаниска фантази лига и стотиците пораки во групниот чет не резултираа со групен консензус. „Играме фантази Премиер лига, може да пробаме и со Светско“ наспроти „бодувањето е ужасно, не ти го играм јас ова“. На крајот, договор за како да ги одмериме „предвидувачките“ сили не беше постигнат.
Околу 10:30 часот, сосема случајно по неформалниот и веќе стандарден пост-викенд разговор за фудбал со Коста, пасиониран следач, рекреативен играч и Data Scientist во Data Masters произлезе следната одлука: „Што ако е почнато Светсково, ќе пуштиме една Google форма во група, па кој сака нека игра. Собирај си ги во Ексел поените, на крај ќе направиме една табела и чао пријатно. И така сме 7-8 души што ќе играме“. Речено, сторено.
Во групниот чет за фантази и фудбалски муабети ја споделивме искуцаната Google форма, опции за погодување на победник и точен резултат на сите натпревари и без многу да обрнуваме внимание на предвидувањата, си продолживме со денот. Стандардниот интерес за ваков тип активност меѓу колегите останува ист како порано.
За неколку дена, како што растеше општата возбуда за Светското и на двата проектори во нашите канцеларии се гледаа натпреварите од групната фаза, така растеше и интересот за оваа неформална компаниска активност, која го разбуди компетитивниот дух, дури и кај оние кои баш и не следат фудбал.
Поради фрекфенцијата на натпревари на дневно ниво, погодувањето на резултати стана една од главните теми во канцеларијата. Бројот на прогнозери се зголемуваше и стана сосема неопходно процесот да се унапреди. Започнавме со рачно пресметување на бодови и колор кодинг во Ексел, кое премина на едноставни формули за полуавтоматска пресметка на добиените бодови од погодувањето на победниците, точните резултати и бонус прашањата.
Тука на сцена стапи Евгенија, Data Architect во Data Masters, чија новооткриена пасија за следење на фудбал и погодување на точни резултати ги засени сите досега стандардни погодувачи. Нејзиното „знам, ќе направам база“, поврзувајќи го спортскиот со работниот интерес е и всушност зошто постои овој блог. Одлучивме дека ова е одлична идеја: резултатите може да одат во база и да се внесат во табели, за понатаму да можат да се анализираат, создавајќи еден скромен по големина датасет. Покрај забавата, сфативме дека ова е одличен начин да промовираме еден дел од нашата работа.
Методологија:
- Предвидувањата на резултатите и победниците се запишуваат во Google форма.
- Од Ексел, преку SSIS се импортираат во база.
- Во една табела се запишуваат податоците од предвидувањата, во друга табела се запишуваат резултатите, а постои и трета, помошна табела за бодување.
Табели:
- Предвидувања – вака изгледаа податоците импортирани од Google форма директно во база:
- Како се запишуваа точните резултати од натпреварите:
- Бонус прашањата за дополнителни поени:
- Секој од играчите се бодува со 2 поени за точно предвиден победник, 5 поени за точен резултат и 5 или 10 поени за бонус прашање (во зависност од тежината на прашањето):
- Податоците, при импортирање во базата, не доаѓаат во формат кој е соодветен за анализа. Тие се претвараат и се нормализираат, за да можат детално да се анализираат:
- Секој од овие редови се поврзува со табелата со точни резултати и така пресметуваме колку поени освоил секој учесник.
- Сите што доцнеа (иако постоеше револт) не ги вклучувавме во дневна калкулација на поени. За секој натпревар го имаме датумот и времето на почеток и според датумот и времето на предикциите, го елиминираме секој невалиден (задоцнет) влез на податоци.
Визуелизација:
Потоа визуелизиравме во Power BI со следниве метрики:
- Кој има најмногу освоени бодови?
- Кој има најмногу пати погодено точен резултат?
- Кој има најмногу пати погодено победник?
- На кој натпревар најдобро сме го предвиделе исходот?
- Кој има најмалку освоени бодови?
- Кој има најмалку пати погодено точен резултат?
- Кој има најмалку погодени натпревари?
Бидејќи бројот на натпревари во еден ден се намалуваше со завршувањето на групите, со тоа се менуваше и максималниот број на освоени бодови. Затоа решивме да направиме и анализа со процент на освоени поени од максимален дневен број на поени, за секој индивидуално да го види својот процент на поени.
Во прилог, респонсивен dashboard со статистика од оваа наша мала егзибиција. Иако е мал обемот на податоци, овој тип на работа ни е секојдневие и ни беше задоволство работата да ја поврземе со најважната споредна работа на светот. Секако, тука беше и возбудата и компетитивниот дух кој се разбуди кај сите нас, како и динамичната дискусија пред и по предвидувањата. Дополнително, за колегите кои не ги работат сите алатки кои ги искористивме во процесот, ова беше одлична можност да ги вежбаат и да работат со реални податоци.
Honorable mentions:
Евгенија Дамјановска Костовска – најдобар прогнозер со најмногу освоени поени од трите различни типови на прогнозирања (победник, точен резултат, бонуси)
Марко Апостолоски – дневен рекордер со најмногу погодени натпревари во еден ден и освојувач на 76,19% од вкупниот број на поени во денот
Алек Велков – најмногу пати точно предвиде победник (или нерешен исход) на натпревар
Никола Арсовски – учесник скаран со часовникот, дури 10 пати задоцни за пополнување на формата
Елена Трајкоска – one hit wonder, односно највисок процент на точни предвидувања со типови на само 25% од натпреварите
Овој блог, анализата и визуелизацијата на податоците немаше да биде возможна без:
- Евгенија Дамјановска Костовска, зачетник на идејата за креирање на база, контрола врз целиот процес и управување со податоците (честитки за победата)
- Владимир Десановски, Data Analyst extraordinaire, креатор на dashboard-от во Power BI
- Коста Секуловски, за иницијалната идеја за креирање на форма
- Жарко Стојановиќ и Ивамариа Јовановска за сите дизајни
- Сите колеги во Data Masters кои се вклучија, не само во погодувањето на победниците и резултатите на светско, туку и во целиот процес со свои сугестии и совети за подобрување на бодувањето
Автор: Петар Ставридис, Digital Marketing @ Data Masters