Обидот да се дојде до суштината на податоците и да се искористи нивниот потенцијал има релативно долга историја зад себе. Статистичарите, математичарите и научниците со децении се обидуваат да го извадат корисното од мноштвото, нешто што доби особен акцент во моментот кога светот почна да се дигитализира, а огромната количина на податоци за преработка стана посебен предизвик.
Бенефитот од употребата на Data Science е огромен, веќе дава плод во медицината, различни видови на бизниси, маркетинг и многу други области. Токму затоа и не изненадува интересот за неа – таа истовремено овозможува еден бизнис или одредена област да напредува, додека на индивидуално ниво дава знаење и потенцијал да се работи во дел од најплатените и најпросперитетни професии.
Харвард ја нарече „Најсекси професија на 21 век“ и постои предвидување дека во иднина секоја поголема компанија треба да има барем еден Data Scientist. Сепак и покрај сè поголемото присуство и употреба на Data Science, постојат одреден вид на прашалници, особено во делот што таа претставува, кој може да го работи ова и како изгледа работата на еден проект. Генерално, кога ќе се спомене терминот наука веднаш се добива чувство за нешто што има особена тежина во изучувањето. Но, каков е случајот со Data Science?
Поглед кон почетоците
Дефиницијата или името се појавува во 80-тите години кога одредени професори ја разгледуваат наставната програма за статистика и сметале дека е потребно да се нарече “Наука за податоците”.
Но, дали еден статистичар може да се нарече Data Scientist? Можеби најадекватниот одговор на ова прашање го дава следниов цитат:
“Data Scientist е оној што е подобар статистичар од било кој програмер и подобар програмер од било кој статистичар”.
И ова во суштина е точно. Предзнаењето на еден Data Scientist не е само во полето на статистика туку е во повеќе области кои ги покрива овој текст.
Дефиниција и фази на работа
Наједноставна дефиниција за Data Science e дека е наука која решава бизнис проблеми преку математика, програмирање и научни методи, кои вклучуваат креирање на хипотези и експерименти преку анализа на податоците и креирањето на предиктивни модели.
Како два најважни предуслови за работа во полето на Data Science е да се поседува инженерски пристап на решавањето на проблемите, но и да се поседува таканаречен “business mindset”.
Прва фаза – согледување на проблемот што треба да се реши
Потребата да се разбере начинот на работа и проблемите со кои се соочува клиентот е од круцијално значење за еден Data Scientist. Тоа е првата и една од поважните фази на еден Data Science проект во кој се дефинира проблемот кој што треба да биде решен како епилог.
Втора фаза – собирање на правилните податоци
Откако ќе добиете осет за доменот на работа на бизнисот, потоа следува фазата на собирање на правилните податоци/информации кои ќе ви бидат потребни за градење на моделот. На пример, ако сакаме да ја предвидиме продажбата на одреден производ, за да би биле спремни за тоа сценарио во поглед на залиха и останати ресурси, она што ни е потребно се историските продажби на производот и надворешните влијанија (во подоцнежниот дел од текстот ќе се фокусираме на тоа зошто ни се потребни надворешните влијанија). Во овој случај продажбата ни е таргетот (таргет варијаблата) што треба да го предвидиме.
Трета фаза – анализа
Откако ќе ги добиеме правилните податоци следува фазата на анализа на истите од која треба да го извлечеме заклучокот: Што точно ни кажуваат податоците? Овде се запознаваме одблиску со податоците и сакаме да извлечеме што повеќе информации од нив кои би ни помогнале да ја предвидиме таргет варијаблата. Овие информации се викаат зависни варијабли или надворешни влијанија.
Во оваа фаза е потребно знаење од статистика за да можете да ја сфатите статистичката вредност на податоците, како и да изградите релевантна хипотеза која би сакале да ја потврдите односно отфрлите.
На пример: побарувачката на конкретниот производ се повторува на месечно ниво.
Четврта фаза – пре-процесирање
Следната и најмакотрпна фаза од еден Data Science проект е фазата на Data пре-процесирање.
Во оваа фаза се поминува најголемиот дел од времетраењето на еден проект односно 80% од времето. Во оваа фаза се припремаат зависните варијабли во формат разбирлив за еден Machine Learning алгоритам. На пример, името на одредена маркетинг кампања нема да биде значајно за еден алгоритам како формат, па така ќе ја искористиме самата активност на кампањата (има/ нема кампања).
Она што е посебен предизвик во проектите е што често се среќаваме со податоци со недоволен квалитет, односно недостаток на податоци. Во тој случај го подобруваме квалитетот на истите со користење разни техники. За оваа фаза е потребно знаење од програмски јазик. Најчесто применувани се Python (во бизнис светот) и R (во истражувачки цели).
Петта фаза – креирање на модел
Последната петта фаза е креирање на модел со машинско учење.
Алгоритмите за машинско учење се користат за да ни помогнат што попрецизно да предвидиме одредени сценарија. Потребно е познавање на концептите позади секој алгоритам за правилна употреба на истите. Делот на “учење” односно “тренирање” на моделот со одвива на тој начин што дел од историските податоци (во нашиот случај тоа е продажбата) ги одделуваме како множество за тренирање (training set) и мал дел за тестирање (test set) односно валидирање на резултатите. Со помош на training set, ML алгоритмот ги “учи” сите сценарија под кои се случила одредена продажба.
Пример: Продажбата реализирана на конкретниот производ во сабота во време на активна маркетинг кампања и период во кој владее пандемија.
Најпосле моделот ќе ја предвиди продажбата врз база на сценаријата кои што се наоѓаат во тест множеството, додека пак добиените резултати потоа ќе се споредат со вистинската продажба со помош на соодветна метрика.
Наука која обединува повеќе нешта
Како што може да заклучиме од сето ова, Data Scientist е професија која е составена од повеќе области. Не се очекува од една личност да биде најголемиот експерт во сите овие полиња, но во реалноста ќе ви биде потребно онолку познавање колку што е потребно за да постигнете што е можно подобар резултат. Ова дефинитивно е наука која обединува неколку нешта, што значи дека треба да се потковате со знаење, но истовремено треба да развиете аналитичен ум кој ќе ги поставува вистинските прашања.
Data Science е поле за луѓе кои сакаат динамика во работата, со сигурност никогаш нема да ви биде здодевно, бидејќи постојано ќе бидете мотивирани да изнаоѓате нови решенија и да размислувате на поинаков начин.