Jei turiu pakankamai duomenų, kokybė nesvarbi.
Tai pavojingi spąstai. Blogi duomenys veda prie „šališkumo sustiprinimo“, kai modelis mokosi ir netgi perdėtai padidina klaidas ar išankstines nuostatas, esančias didžiuliame duomenų rinkinyje.
Nors didelis duomenų kiekis kažkada buvo pagrindinis tikslas kuriant galingą dirbtinį intelektą, dabar dėmesys nukrypo į didelio tikslumo duomenų rinkinius. Kokybė pabrėžia informacijos tikslumą ir aktualumą, o kiekybė suteikia statistinį plotį, reikalingą gilaus mokymosi modeliams apibendrinti sudėtinguose realaus pasaulio scenarijuose.
Duomenų rinkinio tikslumo, švarumo ir reprezentatyvumo konkrečiai užduočiai matas.
Vien individualių stebėjimų arba duomenų taškų, kuriuos gali apdoroti algoritmas, kiekis.
| Funkcija | Duomenų kokybė | Duomenų kiekis |
|---|---|---|
| Pagrindinis tikslas | Tikslumas ir patikimumas | Įvairovė ir apibendrinimas |
| Treniruočių greitis | Greita konvergencija | Lėtas ir daug išteklių reikalaujantis |
| Idealus modelio tipas | Tradicinis mašininis mokymasis (SVM, medžiai) | Gilusis mokymasis (neuroniniai tinklai) |
| Pagrindinė rizika | Mažas imties šališkumas | Algoritminis šališkumas ir triukšmas |
| Įsigijimo kaina | Aukštas (rankinis ženklinimas) | Kintamas (automatinis išgavimas) |
| Poveikis logikai | Aiškesnė priežasties ir pasekmės sąsaja | Atranda paslėptas koreliacijas |
Metų metus pramonė vadovavosi „mastelio dėsniais“, kurie teigia, kad daugiau duomenų beveik visada lemia geresnius rezultatus. Tačiau tyrėjai pastebi, kad pridėjus žemos kokybės duomenis, modelio samprotavimas iš tikrųjų pablogėja. Įsivaizduokite tai kaip studentą, skaitantį dešimt aukštos kokybės vadovėlių, o ne tūkstantį prastai parašytų tinklaraščio įrašų; supratimo gylis paprastai yra palankesnis pirmajam.
Didelės apimties metodas daro prielaidą, kad triukšmas galiausiai „panaikins“ milijonus pavyzdžių. Nors tai veikia atliekant paprastas užduotis, į kokybę orientuotas mokymas proaktyviai pašalina išskirtis, kurios gali lemti klaidingas modelio išvadas. Tokiose svarbiose srityse kaip medicininė diagnostika vienas idealiai pažymėtas vaizdas dažnai yra vertingesnis nei tūkstantis neryškių.
Mokymai dirbti su didžiuliais duomenų rinkiniais yra neįtikėtinai brangūs, nes jiems reikia savaičių grafikos procesoriaus laiko ir milžiniškų energijos sąnaudų. Kurdami mažesnį, aukštos kokybės duomenų rinkinį, kūrėjai dažnai gali pasiekti panašių ar net geresnių rezultatų su nedidele aparatinės įrangos dalimi. Šis pokytis padaro sudėtingą dirbtinį intelektą prieinamesnį mažesnėms organizacijoms, kurios negali sau leisti didelių serverių fermų.
„Quantity“ puikiai tinka užfiksuoti „ilgąją uodegą“ – tuos retus įvykius, kurie nutinka tik kartą iš milijono. Net ir švariausias mažas duomenų rinkinys gali praleisti šiuos svarbius kraštutinius atvejus. Norint sukurti tikrai patikimą sistemą, pavyzdžiui, savaeigį automobilį, reikia didžiulio duomenų kiekio, kad būtų užtikrinta, jog modelis matė visas įmanomas keistas oro sąlygas ar eismo scenarijus.
Jei turiu pakankamai duomenų, kokybė nesvarbi.
Tai pavojingi spąstai. Blogi duomenys veda prie „šališkumo sustiprinimo“, kai modelis mokosi ir netgi perdėtai padidina klaidas ar išankstines nuostatas, esančias didžiuliame duomenų rinkinyje.
Sintetiniai duomenys padeda tik su kiekybe.
Iš tiesų, aukštos kokybės sintetiniai duomenys dažnai naudojami kokybės problemoms spręsti. Jie gali subalansuoti duomenų rinkinį, sukurdami „tobulus“ nepakankamai atstovaujamų grupių pavyzdžius.
Duomenų valymas yra vienkartinė užduotis.
Duomenų kokybė yra nuolatinis ciklas. Keičiantis realaus pasaulio sąlygoms (duomenų dreifui), turite nuolat iš naujo tikrinti, ar jūsų duomenys vis dar tiksliai atspindi dabartinę realybę.
Maži duomenų rinkiniai niekada negali pranokti didelių.
Daugelyje etaloninių testų modeliai, apmokyti su 10 % duomenų rinkinio (kruopščiai atrinkto pagal „sunkumą“ ir kokybę), pranoko modelius, apmokytus su visais 100 %.
Jei dirbate specializuotose srityse, tokiose kaip teisė ar medicina, kur tikslumas yra neginčijamas, rinkitės duomenų kokybės metodą. Kurdami bendrosios paskirties modelius, kuriems reikia apdoroti platų, nenuspėjamą žmonių įvesties spektrą, rinkitės duomenų kiekybės metodą.
Astrologinės prognozės susieja dangaus ciklus su žmonių patirtimi siekiant simbolinės reikšmės, o statistinės prognozės analizuoja empirinius istorinius duomenis, kad įvertintų būsimas skaitines vertes. Šiame palyginime nagrinėjamas skirtumas tarp senovinės, archetipais pagrįstos asmeninių apmąstymų sistemos ir modernios, duomenimis pagrįstos metodologijos, naudojamos objektyviam sprendimų priėmimui versle ir moksle.
Šis palyginimas nagrinėja intriguojančią prarają tarp senovinių dangaus stebėjimų ir šiuolaikinės prognozinės analizės. Astrologiniai tranzitai naudoja planetų ciklus asmeninio augimo fazėms interpretuoti, o gyvenimo įvykių tikimybių modeliai remiasi dideliais duomenimis ir statistiniais algoritmais, kad numatytų konkrečius etapus, tokius kaip karjeros pokyčiai ar sveikatos priežiūros poreikiai.
Nors retrospektyvinė analizė veikia kaip organizacijos galinio vaizdo veidrodis, analizuodama istorinius įrašus, kad suprastų praeities sėkmes ir nesėkmes, ateities prognozavimo modeliai žvelgia pro priekinį stiklą, derindami statistinius algoritmus ir mašininį mokymąsi, kad numatytų būsimus rinkos pokyčius, klientų veiksmus ir veiklos kliūtis.
Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.
Pasirinkimas tarp automatinio modelių sekimo ir rankinio eksperimentų sekimo iš esmės lemia duomenų mokslo komandos greitį ir atkuriamumą. Nors automatizavimas naudoja specializuotą programinę įrangą, kad sklandžiai užfiksuotų kiekvieną hiperparametrą, metriką ir artefaktą, rankinis sekimas priklauso nuo žmogaus kruopštumo naudojant skaičiuokles arba „markdown“ failus, todėl reikia rasti griežtą kompromisą tarp sąrankos greičio ir ilgalaikio keičiamo tikslumo.