Care este diferența dintre normalizare și scalarea standard în învățarea automată? (12.06.21)

Ingineria caracteristicilor și vizualizarea datelor sunt o parte esențială a desfășurării oricărei lucrări legate de învățarea automată și analiza datelor. Deoarece permite dezvoltatorilor să își analizeze datele și să găsească diferitele valori anormale și caracteristici corelate negativ cu caracteristica țintă. Ideea este de a face setul de date cât mai curat posibil, astfel încât un model robust de învățare automată să poată fi construit și reprodus de alții. Pentru a efectua activități legate de inginerie, există multe modalități, cum ar fi eliminarea coloanelor cu valoare nulă, înlocuirea anumitor valori din coloane cu informații relevante, eliminarea valorilor aberante din setul de date, schimbarea tipului de date al coloanelor și multe altele.

O astfel de caracteristică în inginerie este scalarea metadatelor coloanelor din setul nostru de date. Există în principal două tipuri de tehnici de scalare care sunt de obicei efectuate de oamenii de știință de date și acestea sunt Standard Scaling și Normalizare . Ambele tehnici de scalare, deși funcționează pe același principiu care reduce funcționalitatea, dar au un mecanism de lucru diferit și generează diferite tipuri de rezultate. Să discutăm diferențele dintre aceste două tehnici de scalare, astfel încât să putem înțelege mai bine când să folosim ce:

De ce să folosim Scalarea și pe ce algoritmi?

În primul rând, trebuie să să înțelegem de ce avem nevoie de tehnici de scalare pentru a fi implementate în setul nostru de date nu? Răspunsul la acest lucru este dat mai jos:

Algoritmii de învățare automată care depind de coborârea gradientului, care este o curbă parabolică în care caracteristica noastră încearcă să atingă punctul minim global pentru a actualiza greutatea și a reduce eroarea sau costul funcţie. Algoritmii de învățare automată precum Linear, regresia logistică și algoritmii de învățare profundă se bazează pe conceptul decoborârea în gradient, deci aici trebuie să ne scalăm datele. Motivul pentru selectarea tehnicilor de scalare este acela că, atunci când încercăm să atingem punctul minim global prin actualizarea greutăților prin propagare înapoi, valorile caracteristicilor independente ar trebui să fie separabile liniar și să nu fie împrăștiate, deoarece acest lucru poate duce la cazul supraadaptării și subadaptării. Astfel, pentru a ajuta aceste caracteristici să se separe liniar, trebuie să folosim tehnici de scalare. distanțe ale caracteristicilor de la cea mai bună linie de ajustare și actualizarea greutăților în consecință. Deci, algoritmii bazați pe copaci nu necesită scalarea caracteristicilor și afectează în mod negativ eficiența modelului dacă aplicăm aici tehnicile de scalare.

Normalizare

Aici vom discuta despre ce este exact semnificația Normalizării?

Este o tehnică de scalare care permite utilizatorilor să își scaleze datele între un interval de la 0 la 1. Această tehnică de scalare ar trebui utilizată atunci când metadatele caracteristicilor nu urmează o distribuție gaussiană care nu respectă curba în formă de clopot în care punctul central este media egală cu 0 și deviația standard este egală cu 1. Deci, graficul setului de date dacă nu urmează curba Bell, atunci ar trebui să mergem cu tehnica de normalizare. Se mai numește tehnica de scalare Min-Max și este utilizată în general în rețelele neuronale convoluționale, care este o analiză bazată pe imagini.

Formula pentru normalizare este dată ca;

X '= X - Xmin / Xmax - Xmin, unde X este caracteristica independentă, Xmin este valoarea minimă a caracteristicii și Xmax este valoarea maximă a caracteristica.

Standardizare

Z Scor = X - µ / σ, unde X este caracteristica independentă, µ este media metadatelor caracteristică, iar σ este abaterea standard.

Este o tehnică care este utilizată atunci când setul de date seamănă cu o curbă în formă de clopot atunci când se vizualizează aceeași prin grafic și glife. Aceasta se mai numește Gaussian Normal Distributio n unde toate caracteristicile sunt centrate pe media care este egală cu 0 și abaterea standard egală cu 1. Tehnica de standardizare îi ajută pe utilizatori să găsească valori anormale în setul de date. Metoda de a găsi valorile aberante și de a converti datele la scara standard se numește metoda scorului Z și formula pentru găsirea scorului Z este dată mai jos:

Scalarea standard găsește că este aplicația în mulți algoritmi de învățare automată cum ar fi regresia logistică, mașina vectorială de suport, regresia liniară și multe altele. utilizatorii ce să folosească și când, deoarece nu există o regulă dură și rapidă, ar trebui să folosim această tehnică aici și să o respectăm pe cealaltă. Alegerea este total imparțială, iar utilizatorii pot folosi atât tehnicile, cât și ajustarea fină a modelului lor și pot vedea diferența pe care o obțin în scorul setului de date.

Cum se utilizează normalizarea în Python?

from Sklearn.preprocessing import MinMaxScaler    Norm= MinMaxScaler()    X_new= Norm.fit_transform(X)    print(X_new)

Cum se utilizează standardizarea în Python?

from Sklearn.preprocessing import StandardScaler    Scaler= StandardScaler()    X_new= Scaler.fit_transform(X)    print(X_new)


Video YTube: Care este diferența dintre normalizare și scalarea standard în învățarea automată?

12, 2021