Датуми кои го дефинираa развојот на Data Science

23 мај 2019

Статистиката и статистичките модели се длабоко вкоренети во полето на Data Science. Во почетокот, Data Science како наука се темелела само на статистика. Меѓутоа, еволуирајќи заедно со технологијата, оваа наука ја чувствува потребата од „излегување“ од рамките на класичната статистика и ги проширува темелите, вклучувајќи концепти и практики како што се Artificial Intelligence (AI), Machine Learning (ML) и Internet of Things (IoT).

Зголемувањето на обемот на достапни податоци, генерално добиени преку следење на однесувањето на регистрирани и нерегистрирани корисници и трендови на купување, влијае компаниите да развиваат техники и складишта за собирање на овие податоци.

Овој експоненцијален раст на податоците, како и експанзијата на Интернетот и IoT се директни креатори на buzzword-от на 21-иот век – BIG DATA. Сепак, „големите податоци“ и нивната употреба како извор за носење одлуки не се привилегија само на комерцијалните компании и корпорации. Напротив. Области како медицината, инженерството и општествените науки ги користат податоците за научни и работни цели, а секако голем дел од податоците се користат и за „општествено добро“.

Со растот на податоците се зголемување и потребата за професионалци кои ќе работат со нив. Американското биро за статистика на трудот во 2022 година предвидува дека во следната декада двете најбрзо растечки (најбарани) позиции ќе бидат поврзани со податоци (Data Scientist и статистичар).

Функционален Data Scientist се разликува од општиот статистичар со тоа што поседува солидно разбирање на софтверска архитектура и добро се снаоѓа со неколку програмски јазици. Data Scientist-от дефинира предизвик, идентификува клучни извори на информации и дизајнира рамка за собирање и скрининг на потребните податоци.

Софтверот е обично тој што е одговорен за собирање, обработка и моделирање на податоците. Понатаму, софтверот ги користи принципите на Data Science и сите поврзани под-полиња и практики опфатени во рамките на Data Science, за да добие подлабок увид во податоците. Овој увид, понатаму, е предмет на анализа на Data Scientist-от. По спроведената анализа, Data Scientist-от може да извлече заклучоци, т.е. да најде решение за поставениот предизвик.

Значајни години во развојот на Data Science

1962

Во 1962 година, John W. Tukey пишува за промена во светот на статистиката, велејќи: „како што гледав дека математичката статистика еволуира, имав причина да се запрашам и да се сомневам… дојдов да мислам дека мојот централен интерес е во анализата на податоци”. Tukey реферира на спојувањето на статистички податоци и компјутери, во време кога резултатите од статистиката би биле презентирани во неколку часа, за разлика од деновите или седмиците кои би биле потребни доколку би се извршувале рачно.

1974

Во 1974 година, Peter Naur го пишува трудот “Concise Survey of Computer Methods“, во кој прв го употребува терминот “Data Science”. Наур ја претставува сопствената дефиниција на новопоставениот концепт: „Науката за справување со податоци, откако тие се дефинирани, додека односот на податоците со она што тие го претставуваат е делегиран на други полиња и науки”.
“Науката за справување со податоци, откако тие се дефинирани, додека односот на податоците со она што тие го претставуваат е делегиран на други полиња и науки”.

1977

Во 1977 година, е формиран IASC или International Association for Statistical Computing (Меѓународна асоцијација за статистичко пресметување). Првата фраза од нивната изјава за мисијата гласи: „Мисијата на IASC е да ја поврзе традиционалната статистичка методологија, современата компјутерска технологија и знаењето на експертите за доменот со цел да ги конвертираат податоците во информации и знаење”.

Во 1977 година, Tukey пишува втор документ под наслов „Анализа на истражувачки податоци“, тврдејќи ја важноста на користење на податоците при изборот на хипотези за тестирање. Во овој документ, Tukey, исто така вели дека потврдната анализа на податоци и анализата на прелиминарни податоци треба да работат рака до рака.

1989

Во 1989 година, Discovery Knowledge во Базите на податоци, која ќе прерасне во ACM SIGKDD конференцијата за откривање на знаења и податочно рударење, ја организира својата прва работилница.

1994

Во 1994 година, списанието Business Week ја раскажува приказната со наслов Database Marketing, каде открива застрашувачки делувања на новинарски компании кои собираат големи количини лични податоци, со план да започнат „чудни нови маркетинг кампањи“. Поплавата на податоците е, во најдобар случај, збунувачка за менаџерите на компаниите, кои се обидуваат да одлучат што да прават со толку многу неврзани информации.

1999

Во 1999 година, Jacob Zahavi ја истакнува потребата од нови алатки за справување со огромните количини информации достапни за бизнисите. Во “Mining Data for Nuggets of Knowledge” изјавува: „Приспособливоста е огромно прашање во Data Mining… Конвенционалните статистички методи добро функционираат со мали множества на податоци, но денешните бази на податоци вклучуваат милиони редови и резултати од колони на податоци… Друг технички предизвик е развивање модели кои можат да ја подобрат работата со анализа на податоци, откривање на нелинеарни односи и интеракција помеѓу елементите… Треба да се развијат специјални алатки за податочно рударење кои ќе ги адресираат одлуките донесени на веб-страните… ”

2001

Во 2001 година е создаден Software-as-a-Service (SaaS), а со тоа почнува експанзијата за користење Cloud-базирани апликации.

Во 2001 година, William S. Cleveland изложува планови за обука на Data Scientist, кој би ги задоволил потребите на иднината. Тој презентира акционен план со наслов: “Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics”. Cleveland опишува како да се зголеми техничкото искуство и опсегот на аналитичари на податоци и да се определат шест области на студии на универзитети. Понатаму, промовира развој на специфични ресурси за истражување во секоја од шесте области. Неговиот план, исто така, се однесува на владините и корпоративните истражувања.

2002

Во 2002 година, Меѓународниот совет за наука: Комитетот за Data Science и технологија започнува со објавување на Data Science Journal, публикација фокусирана на прашања како што се опис на системите за податоци, нивно објавување на интернет, апликации и правни прашања.

2006

Во 2006 година, излегува Hadoop 0.1.0, open-source, нерелациона база на податоци. Hadoop е базиран на Nutch, друга база на податоци со отворен код.

2008

Во 2008 година, кованицата “Data Scientist” станува buzzword, а на крајот и дел од јазикот. DJ Patil и Jeff Hammerbacher, од LinkedIn и Facebook, добиваат признание за иницирање на неговата употреба како клучен збор.

2009

Во 2009 година, повторно е воведен терминот NoSQL (варијација на овој термин е користена од 1998 година) од Јохан Оскарсон, кога организира дискусија за „бази на податоци со отворен код, нерелациони бази на податоци”.

2011

Во 2011 година, бројот на огласи за работа за Data Scientist се зголемува за 15 000 %. Се зголемува и и бројот на семинари и конференции посветени на Data Science и Big Data. Бидејќи Data Science се покажува како исклучително профитабилна гранка, веднаш станува дел од корпоративната култура.

Во 2011 година, James Dixon, CTO на Pentaho, го промовира концептот на Data Lakes како замена за досегашните Data Warehouses. Dixon ја дефинира разликата помеѓу двете. Неговиот заклучок е дека додека Data Warehouse губи време и енергија поради тоа што ги категоризира податоците на нивната влезна точка, Data Lake ги прима информациите такви какви што, користејќи нерелациона база на податоци (NoSQL) и не ги категоризира, туку само ги чува податоците.

2013

Во 2013 година, IBM споделува статистика која покажува дека 90 % од податоците во светот се создадени во последните две години.

2015

Во 2015 година, користејќи техники на Deep Learning, Google Voice – Google’s speech recognition доживува скок на перформанси од неверојатни 49 %.

Во 2015 година, Jack Clarks од Bloomberg изјавува дека 2015 езначајна година за Artificial Intelligence. Во Google, бројот на проекти кои практикуваат некаков вид на Artificial Intelligence се зголемува од „привремена употреба“ до повеќе од 2 700 проекти во текот на годината.

2018

Во јули 2018 година е формирана Data Masters, првата компанија специјализирана за Business Intelligence и Machine Learning во Македонија.

2022

Во четирите години постоење, Data Masters успеа да ги исполни сите првично поставени цели и да постигне значаен раст на сите полиња. По 4 години работа, компанијата брои 50+ вработени, 60+ проекти (домашни и странски) и 400+ студенти на Data Masters Академијата, како и најава за ширење на интернационално ниво.

Направете го првиот чекор кон вашата иднина.

BE THE MASTER
OF YOUR DATA

datamasters.ai