Споделуваме знаење

Како Data Engineering ја олеснува работата на компаниите?

Зорица Карапанчева

Data Еngineer at Data Masters

Зорица Карапанчева​

Data Engineer at Data Masters

Споделуваме знаење

Како Data Engineering ја олеснува работата на компаниите?

Важноста на Data Engineering

Кога разговараме на тема Data Engineering, сè се сведува на разрешување на потребата за подобро справување со податоците и тоа гледано од компаниски аспект. Оваа потреба е комплексна, но сепак решлива. Ако тргнеме од количината на податоци што се генерира на дневно ниво и која постојано се зголемува со настапувањето на дигиталната револуција, можеме да добиеме одредено чувство за грандиозноста на задачата. Накратко кажано, генерираните податоци се од големо значење за спроведување на анализи и добивање на нови бизнис бенефити за компаниите.

Глобалниот тренд на раст на податоци предвидува дека до 2025 година ќе се генерираат 463 ексабајти податоци на ден. Големото количество на податоци е многу значајно за областите поврзани со вештачка интелигенција, како што се machine learning, deep learning, reinforcement learning и други, бидејќи предвидувањата не би имале прецизни резултати без претходно соодветно чистење на податоците. Како резултат на тоа, во последната декада се издвојува областа на Data Engineering, која има за цел развој и оптимизација на податочни системи преку преземање, чистење и складирање на податоците.

Главната цел на Data инженерите е да овозможат целосна достапност на податоците, за организациите да можат да ги евалуираат и оптимизираат своите перформанси. Уште поважно, да придонесат кон создавање додадена вредност за својата компанија. Предностите кои ги овозможува оваа област вклучуваат и подобро донесување на одлуки, поголема прецизност при анализи на податоците, како и идентификување на ризици и бизнис можности.

Генерално можеме да разграничиме дека областа на Business Intelligence има улога да генерира и извршува on-premise ETL (extract-transform-load) процеси. Од друга страна, улогата на научниците за податоци вклучува работа со податоци на cloud. Во овој контекст потребата на Data Engineering е креирање и извршување на ETL процеси локално и на cloud за потребите на Data Science. Овој напреден начин на администрација на податоците кој вклучува преземање, трансформација и складирање на истите, овозможува пронаоѓање на решенија за подобри бизнис процеси.

За да ја разбереме целосната потреба и корист од областа на Data Engineering, ќе разгледаме две перспективи.

Како што споменавме, во денешно време компаниите со своите бизнис процеси на дневно ниво генерираат голема количина на податоци кои е потребно да се зачувуваат за понатамошни анализи. Компаниите секогаш имаат можност за локално чување на податоци кое само по себе побарува постоење на локална серверска архитектура и физички локациски сервери. Прашањето кое се поставува е дали овие локални складови можат да ги поддржат сите податоци кои ќе се генерираат во следниот месец? Дали истото складиште ќе може да се полни со податоци и по 5 години без никаква загуба на истите?

Од друг аспект, моменталната база на податоци можеби одлично се справува со тековните бизнис процеси, но дали целата архитектура на базата ќе биде потребно да ја менуваме доколку имаме нов тип на влезни документи во системот? Можеби имаме потреба да влечеме податоци од други бази и потребна ни е нивна интеграција или пак сакаме да генерираме дополнителна база на истиот сервер.

Генералното прашање во таа насока е следново – Дали вработените од различни оддели во компанијата треба да имаат предзнаење за вакви миграции? Дали научниците за податоци треба да посветат време на своите анализи или да се грижат за зачувувањето на самите податоци?

Одговорот на сите овие прашања претставува причина за препознатливоста и потребата од Data Engineering. Основата на оваа област се темели врз три аспекти и тоа: преземање на податоци од сите релевантни извори, трансформирање на собраните податоци во точна форма потребна за понатамошни анализи и полнење на целното податочно складиште со соодветната архитектура. Овие процеси генерално можеме да ги сумираме со поимот на ETL (extract-transform-load) процеси.

Extract

Raw data is collected from various sources such as:
Oracle SQL Server, flat file, Teradata, etc

Transform

Data is stored in the staging area for transformation

Load

Processed data is stored into the data warehouse for use

Потенцијални предизвици

За да ги разбереме денешните предизвици на компаниите, ќе разгледаме едно сценарио за компанија составена од 3 оддели кои извршуваат свои бизнис процеси (оддел за производство, оддел за екстерни комуникации и оддел за испорака). Секој оддел работи со своја база на податоци во кои локално ги складираат своите податоци на компјутери. Дополнително во однос на своите потреби, секој оддел генерира различен тип на извештаи кои се зачувуваат во различен формат (.txt, .xslx, .parquet) и се генерираат во различни временски интервали (дневно, месечно и квартално ниво).

Притоа, наша задача е да направиме анализа на тоа дали приходите на одделот за испорака се поголеми од трошоците на одделот за производство и колкаво влијание има корисничкото задоволство врз тие остварени приходи?

За оваа цел потребно е одделот за производство и одделот за испорака да испратат извештаи од трансакции во претходната година (бидејќи немаме пристап до нивните компјутери, бараме информациите да ни ги испратат по e-mail). Одделот за екстерни комуникации дополнително ни ги испраќа клиентските пораки како резултати од веб формулар. Откако ќе се добијат потребните податоци се започнува со директна пресметка и забележуваме дека мерната единица во двата типа на извештаи е различна и е потребно истата да ја трансформираме; извештаите се генерирани на различни временски интервали кои е потребно да се сумаризираат и забележуваме нееднаквост во набројаните сервиси во различните извештаи. За нашата крајна цел потребно е дадените разлики рачно да ги промениме и пресметаме што ни го одолговлекува крајниот рок на нашата активност. Откако ќе успееме да го завршиме целиот процес (со двојна проверка поради грешни пресметки) потребно е крајниот извештај да го зачуваме некаде при што не можеме да одбереме во која база на одделите да го прикачиме. Следниот пат кога ќе сакаме да ја повториме дадената анализа ќе биде потребно да поминеме низ сите овие чекори.

Може навидум овој процес изгледа имагинарен, но истиот претставува секојдневие во одредени компании кои немаат одредено начин за администрирање на своите податоци. Од уште поголема важност се и потенцијалните загуби на компанијата, кои би се должеле на овие несогласувања и одолговлекувања. Со овој пример можеме да забележиме дека администрирањето на податоците е неизбежен процес, но на компанијата останува одлуката за тоа на кој начин ќе се справи со истите –  дали мануелно ќе се прават пресметките или Data инженер ќе ги стандардизира податоците и вклопи во флексибилно податочно складиште за поширока употреба. Се разбира, второто решение е далеку подобро за самиот бизнис.

Бенефити од Data Engineering

Data Engineering не секогаш претставува неопходен дел од работата на компаниите, но иститот може да донесе голем бенефит. Доколку компанијата располага со голем обем на податоци, доколку податоците се променливи или вклучуваат нови податоци на одреден временски период, потребно е соодветно менаџирање со истите. За сите бизнис процеси да функционираат непрекинато, потребен е Data инженер кој ќе работи на стандардизирање и структурирање на целиот проток на податоци, како и на самите податоци. Задачите на Data инженерите најчесто се сочинети од идентификување и собирање на сите потребни податоци и трансформирање и стандардизирање на истите, со цел креирање на податочно складиште со соодветна архитектура.

Општата препорака во оваа насока би била следна – доколку Вашата компанија се препознае во горенаведеното, од голем бенефит претставува имплементација на Data Engineering, бидејќи во спротивно огромни се шансите дека компанијата ќе се соочи со неискористливи, неструктурирани и редундантни податоци.

Со оглед на тоа што податоците генерално се чуваат на cloud поради нивниот обем и лесна достапност, cloud платформите ги нудат сите потребни сервиси за end-to-end Data Engineering. Најчесто користени cloud платформи претставуваат Amazon Web Services, Azure Cloud Services и Google Cloud Platform, но веќе во следниот текст подетално ќе ја разгледаме темата за Data Engineering на Cloud.

Корисни линкови:
Бенефити од Data Engineering = https://www.devlane.com/blog/benefits-of-data-engineering

Од нашиот блог