Lexiq

Data cleaning

A data cleaning (vagy data cleansing, magyarul adattisztítás) az az eljárás, melynek során egy adatbázisban megtaláljuk és kijavítjuk a különböző hibákat, például a hiányzó adatokat, egyértelműen téves értékeket vagy elgépelt szavakat. A javítás az adat és a felhasználás jellegétől függően lehet helyesbítés, valamilyen közelítő értékkel való feltöltés vagy akár törlés is.

A kifejezést gyakran használják például a gépi tanulás területén, ahol a tanításra használt adatbázist használat előtt meg kell tisztítani a hibáktól, hogy azok ne vigyék tévútra a tanulást. Például ha van egy adatbázisod, amiben emberek neve és életkora szerepel, akkor az életkort megvizsgálva kiderülhet, hogy helyenként hiányzik, vagy valahol irreális, például 250 év szerepel. Ezeket a sorokat felhasználás előtt törölheted az adatbázisból, vagy esetleg dönthetsz úgy is, hogy az átlag életkorra cseréled ki a hiányzó és hibás értékeket.

Az adattisztítást manuálisan is el lehet végezni, de sok programozási nyelv támogatja is valamilyen formában. Például Python alatt a pandas kiegészítő csomagban egyszerű egysoros parancsokkal megoldható a hiányzó adatok törlése (dropna parancs) vagy valamilyen értékkel való feltöltése (fillna parancs).

A kifejezés az angol data (=adat) és cleaning (=tisztítás) szavakból áll.

Publikálva: 2022. szeptember 6.