Во последнава деценија имаше огромен бум во податоците генерирани и во сопственост на големите корпорации, но и од секојдневните корисници, како вие и ние. Овие податоци често се вметнуваат под општиот поим Big Data и се препуштени во рацете на Data Scientists, кои треба да ја извадат смислата зад нив и да пронајдат креативно решение за нивна визуелизација.
Ова ги отвора прашањата: што точно претставува Data Science и што правиме со податоците?
Што е Data Science?
Терминот Data Scientist е “umbrella” термин кој вклучува повеќе работни позиции. Тоа е главниот диференцијатор помеѓу Data Scientist, статистичар, аналитичар или инженер; Data Scientist извршува по малку од секоја од задачите од овие професии. Работниот опис на еден Data Scientist зависи од самата компанија во која работи и може да биде фокусиран на само една вештина од горенаведените професии или неколку во комбинација.
Во Data Masters, имајќи предвид дека поентата на нашите обуки на Академијата е да креираме Data Scientists, нудиме спектар на знаење кое слушателите на обуките ќе ги оспособи за следниве задачи:
1. Анализа на податоци
2. Моделирање / статистика
3. Инженерство / прототипирање
Редоследот на задачите е промислен, бидејќи го рефлектира животниот циклус на еден data science проект. Но, за да биде точно, треба да се додаде и точка „0“ – Чистење на податоци, бидејќи тоа знае да биде временски најконзумирачки таск.
Чистење на податоци
Обемната количина на податоци низ светот, за жал, го прави пристапот до податоците неунифициран и тежок за употреба. Поради тоа, се јавува потребата од чистење и формулирање на податоците според одреден сет од предефинирани правила.
Анализа на податоци
Дел кој многу луѓе го препишуваат како „работа во Excel“. Просечен Data Scientist работи со бази на податоци кои се преголеми за да бидат отворени во типична spreadsheet програма, а во некои случаи преголеми и за да бидат оперирани на еден компјутер. Анализата на податоци е сфера на визуелизација (табелите се наменети за роботи).
Ова е делот каде податоци се делат на начин кој е лесно разбирлив за луѓе. Низ процесот се создава приказна, притоа објаснувајќи ги податоците на начин кој е лесен за комуницирање и уште полесен за да се донесат одлуки според него.
Пример: Data Science тимот на Facebook открил дека имањето барем десет пријатели е еден вид гаранција дека корисникот ќе остане активен на страната, поради тоа има огромна машинерија фокусирана да ни помогне да пронајдеме пријатели.
Моделирање / статистика
Работата што ја извршува еден Data Scientist, најчесто се сведува на моделирање или статистика, a називот/звањето на работната позиција зависи од академската позадина на човекот кој ја извршува.
Инженерство / prototyping
Чистите податоци и добриот модел се само почеток. Самиот модел, без разлика на неговата ефикасност, нема функција, освен ако не умее неговите предикции да ги пренесе до клиентите, конзистентно! Тоа подразбира дека моделот треба да изграден како продукт кој е лесно употреблив и за луѓе без техничкa позaдина. Тоа опфаќа многу форми: визуелизации, метрики, dashboard или апликации. Дали продуктот ќе биде целосна апликација или само proof-of-concept, зависи од количината на податоци со која се работи и од клиентот за кој се извршува задачата.
Заклучок
Животниот циклус на Data Science проект подразбира многу поправки, ревизирање и вршење оптимизации. Но тоа е најдобрата работа околу Data Science: подразбира извршување на многу работи наеднаш и претставува предизвик, доколку сте подготвени за него.