Која е разликата помеѓу статистика и Machine Learning?
Мachine Learning е алгоритам кој учи од податоци без да се потпира на ригидно искуцани кодови и правила.
Статистичкото моделирање е формализација на односите меѓу променливите во податоците во форма на математички равенки.
Machine Learning се користи за предвидувања, supervised learning и unsupervised learning.
Статистиката се користи за примероци, популации, хипотези, итн.
Навидум два различни критериуми, но колку всушност тие се разликуваат?
Machine Learning и статистика ја делат истата цел. Двете полиња нудат одговор на истото прашање: како да научиме од податоците?
Истите концепти имаат различни имиња во двете полиња. Она што во статистика е естимација, во Machine Learning е учење. Во статистика е регресија, во ML e supervised learning. Статистика има data point, Machine Learning има инстанци.
Денес, техниките на Machine Learning и статистика се користат при препознавање на модели, препознавање на трендови и data mining. Двете полиња сe повеќе и повеќе се приближуваат една до друга.
Machine Learning и статистиката ја делат истата цел: учење од податоци. И двете овие методи се фокусираат на извлекување знаење од податоците. Но, нивните методи се под влијание на нивните вродени културни разлики. Тие се поврзани, но нивната основа е различна.
Machine Learning е под-поле на компјутерските науки и вештачката интелигенција. Се занимава со системи за градење кои можат да учат од податоци, наместо експлицитно програмирани упатства.
Статистичкиот модел, од друга страна, е подмножество на математиката.
Машинско учење е релативно ново поле. Достапноста на големи количини податоци и евтината компјутерска моќ им овозможуваат на Data Scientist да развиваат модели преку анализа на податоци. Но, статистичкото моделирање постоело долго пред да бидат измислени компјутерите.
Методолошки разлики помеѓу машинско учење и статистика
Разликата меѓу двете е дека машинското учење ја нагласува оптимизацијата и перформансите за разлика од статистиката која го става акцентот на „интеракцијата на податоците“.
Ова е како статистичар и Machine Learning експерт би опишале исход од ист модел:
- ML експерт: “Моделот е 85% прецизен во предвидување на Y, со оглед на a, b и c.”
- Статистичар: “Моделот е 85% прецизен во предвидување на Y, со оглед на a, b и c; и јас сум 90% сигурен дека ќе го добиете истиот резултат”.
Machine Learning не бара претходни претпоставки за основните односи меѓу променливите. Вие само треба да ги нафрлите сите податоци кои ги имате, а алгоритмот ги обработува податоците и открива шеми, со кои можете да направите предвидувања за новиот збир на податоци. Machine Learning го третира алгоритмот како црна кутија, добро е сѐ додека работи. Тоа генерално се применува на високо-димензионални сетови на податоци. Колку повеќе податоци имате, толку попрецизно е вашето предвидување.
Спротивно на тоа, статистичарите собираат податоци, ги калкулираат статистичките својства на оценувачот (p-вредност, непристрасни оценувачи), ја одредуваат основната распределба на примерокот (популацијата). Статистичарите ги одредуваат условите под кои повторувањето на истиот експеримент би довело до исти резултати. Во статистиката важно е да се работи со точно одредени параметри кои ја поседуваат предиктивната моќ на моделот. Техниките за статистичко моделирање најчесто се применуваат во случаи на работа со нискодимензионални податоци.
Заклучок
Навидум изгледа дека статистиката и Мachine Learning се две различни полиња на предиктивното моделирање. Но, нивната разлика значајно се намалува во текот на оваа деценија. Полињата научија многу едни од други и ќе продолжат да се приближуваат и понатаму.
Разбирањето на точките каде полињата се поврзуваат, односно разликуваат, е одлична можност за статистичарите и Machine Learning експертите да го надоградат своето знаење фокусирајќи се на знаењата кои им недостасуваат.
Ова е главната идеја зад Data Science, која има за цел да го премости јазот. Соработката и комуникацијата помеѓу овие две фасцинантни дисциплини управувани од податоци ни овозможува да донесуваме подобри одлуки кои на крајот ќе влијаат позитивно врз начинот на кој живееме.
На обуките од Академијата на Data Masters можете од прва рака увидете ја разликата (или сличноста, во зависност каде лежат вашите уверувања) зад овие две полиња.