masinõpedimensiooni vähendamineandmeteadustehisintellektjuhendamata õppimine

Mitmekesine õppimine vs lineaarse dimensiooni vähendamine

Mitmekesine õppimine ja lineaarne dimensioonide vähendamine käsitlevad mõlemad kõrgmõõtmelisi andmeid, kuid erinevad põhimõtteliselt selle poolest, kuidas nad struktuuri säilitavad. Lineaarsed meetodid eeldavad, et andmed asuvad tasasel hüpertasandil, samas kui mitmekesine õppimine paljastab kõverad, mittelineaarsed seosed. Nende vahel valimine sõltub sellest, kas teie andmete sisemine geomeetria on tasane või kõver.

Esiletused

Mitmekesine õppimine eeldab kõverat geomeetriat; lineaarsed meetodid eeldavad tasapinnalisi hüpertasandeid.
Lineaarsed meetodid säilitavad globaalse struktuuri, samas kui mitmekesised meetodid seavad esikohale kohalikud naabruskonnad.
PCA ja sõbrad ulatuvad miljonite punktideni; t-SNE ja UMAP vaevu ületavad kümneid tuhandeid.
Lineaarprojektsioone saab uutele andmetele koheselt rakendada, kuid mitmekordseid manuseid sageli ei saa.

Mis on Mitmekesine õppimine?

Mittelineaarsete tehnikate klass, mis paljastab kõrgmõõtmeliste andmete sees peidetud madalamõõtmelisi kõveraid struktuure.

Mitmekesine õppimine põhineb mitmekesisuse hüpoteesil, mis eeldab, et kõrgmõõtmelised andmed asuvad tegelikult madalama mõõtmega kõveral pinnal.
Populaarsete algoritmide hulka kuuluvad isomap, lokaalselt lineaarne manustamine (LLE), t-SNE, UMAP ja Laplacia omakaardid.
See paistab silma kohalike naabruskondade säilitamisega, mis tähendab, et lähedalasuvad punktid kõrgmõõtmelises ruumis jäävad vähendatud esituses lähedale.
Enamikul mitmekesistest meetoditest on valimivälise projektsiooniga raskusi, mistõttu on uute andmepunktide kaardistamine ilma ümberõppeta keeruline.
t-SNE-d ja UMAP-i kasutatakse laialdaselt keerukate andmekogumite, näiteks üherakulise RNA sekveneerimise ja piltide manustamise visualiseerimiseks.

Mis on Lineaarse dimensiooni vähendamine?

Meetodid, mis projitseerivad kõrgmõõtmelisi andmeid madalama mõõtmega alamruumidesse lineaarsete teisenduste abil.

Peakomponentide analüüs (PCA), kõige kuulsam lineaarne meetod, pärineb aastast 1901 ja selle töötas välja Karl Pearson.
Lineaarsed meetodid eeldavad, et andmete dispersiooni on kõige parem tabada algse tunnusruumi ortogonaalsete telgede ääres.
Need säilitavad globaalse struktuuri, mis tähendab, et üldine kuju ja kaugete punktide vahelised kaugused säilivad.
Lineaarsed meetodid on arvutuslikult tõhusad ja skaleeruvad hästi miljonite valimiteni.
Lisaks PCA-le hõlmab perekond lineaarset diskriminantanalüüsi (LDA), faktoranalüüsi ja kärbitud SVD-d.

Võrdlustabel

Funktsioon	Mitmekesine õppimine	Lineaarse dimensiooni vähendamine
Põhiline eeldus	Andmed asuvad kõveral madalamõõtmelisel kollektoril	Andmed asuvad tasasel lineaarsel alamruumil
Struktuur säilinud	Peamiselt kohalikud naabruskonnad	Peamiselt globaalne dispersioon
Arvutuslik maksumus	Üldiselt kõrgem, sageli O(n²) või halvem	Madal, tavaliselt O(n·d²) või kiirem
Tõlgendatavus	Alumisel teljel on harva otsest tähendust	Kõrgemal tasemel on komponendid sageli seotud originaalfunktsioonidega
Skaleeritavus	Piiratud, pingutab üle kümnete tuhandete punktide	Suurepärane, töötleb miljoneid proove
Valimiväline projektsioon	Keeruline, nõuab lähendusmeetodeid	Lihtne maatriksi korrutamise kaudu
Parimad kasutusjuhud	Visualiseerimine, mittelineaarsed mustrid, pilt ja bioloogilised andmed	Funktsioonide tihendamine, eeltöötlus, müra vähendamine
Näidisalgoritmid	t-SNE, UMAP, Isomap, LLE	PCA, LDA, faktoranalüüs, kärbitud SVD

Üksikasjalik võrdlus

Geomeetrilised eeldused andmete kohta

Nende lähenemisviiside suurim filosoofiline lahknevus seisneb selles, mida nad arvavad teie andmete kuju kohta. Lineaarne dimensioonilisuse vähendamine käsitleb kõrgmõõtmelisi andmeid nii, nagu need asuksid tasasel hüpertasandil, kus sirgjooned ja ortogonaalsed projektsioonid jäädvustavad kõige olulisema variatsiooni. Mitmekesine õppimine on vastupidisel seisukohal, väites, et reaalse maailma andmed sageli voldivad ja kõverduvad kõrgmõõtmelises ruumis nagu kortsus paberitükk. Kui te selle paberi lahti harutate, saate kahemõõtmelise pinna ja mitmekesised algoritmid püüavad just seda matemaatiliselt teha.

Kohaliku ja globaalse struktuuri säilitamine

Lineaarsed meetodid, nagu PCA, on globaalse struktuuri eestkõnelejad. Need tagavad, et algses ruumis kaugel asuvad punktid jäävad ka projektsiooni järel kaugele, mis on suurepärane üldise dispersiooni mõistmiseks, kuid võib hägustada peeneteralisi klastreid. Mitmekesine õppimine pöörab selle prioriteedi ümber, keskendudes intensiivselt lähedalasuvate punktide lähestikku hoidmisele. Seetõttu loovad t-SNE ja UMAP need silmatorkavad visualiseeringud, kus klastrid selgelt esile kerkivad, isegi kui nende klastrite globaalne paigutus on mõnevõrra meelevaldne.

Arvutuslik praktilisus

Kui andmestikud suureks kasvavad, liiguvad lineaarsed meetodid märkimisväärselt edasi. PCA-d saab tõhusalt arvutada omaväärtuste või singulaarsete väärtuste dekompositsiooni abil ning teegid nagu scikit-learn saavad miljonite ridadega hõlpsalt hakkama. Mitmekesised algoritmid seevastu nõuavad sageli halvasti skaleeruvate naabruskonna graafikute ehitamist ja eriti t-SNE-l on valimite arvu ruutkeskmine keerukus. UMAP paranes selles osas mõnevõrra, kuid mõlemad jäävad tootmismahu torujuhtmete puhul lineaarsetest meetoditest siiski kaugele maha.

Tõlgendatavus ja juurutamine

Lineaarsed meetodid pakuvad selget eelist, kui on vaja selgitada, mida vähendatud mõõtmed tähendavad. PCA komponendid on algsete tunnuste kaalutud kombinatsioonid, nii et saate kontrollida koormusi ja mõista, millised muutujad iga telge juhivad. Mitmekesised manustused on kurikuulsalt läbipaistmatud, telgedega, mis harva vastavad millelegi inimese poolt tõlgendatavale. Lisaks võimaldavad lineaarsed meetodid teil õpitud teisendusmaatriksi abil koheselt uusi andmepunkte projitseerida, samas kui mitmekesised meetodid vajavad uute valimite käsitlemiseks sageli ümberõpetamist või keerulisi lähendusi.

Kui iga lähenemine särab

Lineaarne dimensioonide vähendamine jääb vaikimisi valikuks eeltöötlustorustike, tunnuste tihendamise ja olukordade puhul, kus kiirus ja tõlgendatavus on olulised. Mitmekesine õppimine teenib oma koha ära, kui andmetel on selgelt mittelineaarne struktuur, mõtlevad pildid, kõnespektrogrammid või geeniekspressiooni profiilid ning kui eesmärk on uurimine, mitte juurutamine. Praktikas kasutavad paljud andmeteadlased PCA-d esmalt baasjoonena ja seejärel pöörduvad mitmekesiste meetodite poole ainult siis, kui lineaarsed projektsioonid ei suuda olulisi mustreid paljastada.

Plussid ja miinused

Mitmekesine õppimine

Eelised

+ Jäädvustab mittelineaarseid mustreid
+ Suurepärane visualiseerimiseks
+ Paljastab peidetud klastreid
+ Säilitab kohaliku geomeetria

Kinnitatud

− Arvutuslikult kallis
− Raske tõlgendada
− Halb valimiväline kaardistamine
− Tundlik hüperparameetrite suhtes

Lineaarse dimensiooni vähendamine

Eelised

+ Kiire ja skaleeritav
+ Lihtne tõlgendada
+ Deterministlikud tulemused
+ Lihtne juurutamine

Kinnitatud

− Eirab mittelineaarset struktuuri
− Piiratud lamedate projektsioonidega
− Võib hägustada tihedaid klastreid
− Eeldab ortogonaalset dispersiooni

Tavalised eksiarvamused

Müüt

Mitmekesine õppimine on alati PCA-st parem, kuna see on keerukam.

Tõelisus

Keerukus ei võrdu parema jõudlusega. PCA sobib või edestab sageli mitmeid meetodeid selliste ülesannete puhul nagu klassifitseerimise eeltöötlus või müra vähendamine. Mitmekesine õpe paistab silma konkreetsetes stsenaariumides, näiteks visualiseerimisel, kuid paljude praktiliste masinõppeülesannete puhul on PCA tugevam valik.

Müüt

t-SNE ja UMAP säilitavad andmete globaalse struktuuri.

Tõelisus

Mõlemad meetodid moonutavad globaalseid vahemaid, et rõhutada kohalikke naabruskondi. Klastrite vaheline kaugus t-SNE graafikul ei kanna peaaegu mingit olulist teavet ja tõlgendada tuleks ainult lähedalasuvate punktide suhtelist asukohta.

Müüt

PCA eeldab, et andmed on normaaljaotusega.

Tõelisus

PCA ei nõua normaalsust. See eeldab vaid, et dispersioon on oluline suurus, mida säilitada, ja et tunnuste lineaarsed kombinatsioonid tabavad olulise struktuuri. See töötab laia jaotusvahemiku korral, kuigi raske sabaga andmed võivad tulemusi moonutada.

Müüt

Kui olete t-SNE käivitanud, saate manustamist kasutada sisendina allavoolu mudelile.

Tõelisus

t-SNE või UMAP-i manustamise kasutamist juhendatud õppe tunnustena üldiselt ei soovitata, kuna need moonutavad vahemaid ja kaotavad globaalset teavet. PCA või muud lineaarsed meetodid on tavaliselt tunnuste projekteerimise torujuhtmete jaoks ohutumad valikud.

Müüt

Mitmekesine õppimine suudab iga andmestiku kahemõõtmeliseks taandada ilma teabekaota.

Tõelisus

Igasugune dimensioonide vähendamine toob kaasa teatud informatsiooni kadu. Mitmekesised meetodid säilitavad lokaalsed seosed, kuid ohverdavad globaalse täpsuse ja agressiivne kahemõõtmelisusse taandamine võib varjata olulisi variatsioone, mis on olulised järgnevate ülesannete jaoks.

Sageli küsitud küsimused

Mis on peamine erinevus mitmekülgse õppimise ja PCA vahel?

PCA eeldab, et andmed asuvad tasasel lineaarsel alamruumil ja leiab maksimaalse dispersiooniga ortogonaalsed teljed. Mitmekesine õppimine eeldab, et andmed asuvad kõveral pinnal ja püüab neid "lahti kerida", säilitades samal ajal lokaalsed naabruskonnad. Peamine erinevus seisneb lineaarsetes ja mittelineaarsetes eeldustes alusgeomeetria kohta.

Millal peaksin PCA asemel kasutama mitmekülgset õpet?

Mitmekülgse õppimise poole tasub püüda siis, kui teie andmetel on selge mittelineaarne struktuur, mida PCA ei suuda tabada, näiteks pildid, kõnefunktsioonid või bioloogilised andmed. See on parem valik ka siis, kui teie eesmärk on visualiseerimine ja soovite, et klastrid oleksid selgelt eristatavad. Eeltöötluse või tootmistorustike jaoks on PCA tavaliselt kiirem ja praktilisem.

Kas t-SNE on mitmekülgne õppemeetod?

Jah, t-SNE-d peetakse mitmekülgseks õppemeetodiks, kuna see säilitab kohaliku naabruskonna struktuuri ja paljastab mittelineaarsed mustrid. See on aga peamiselt mõeldud visualiseerimiseks, mitte üldiseks dimensioonide vähendamiseks, ega paku võimalust uute andmepunktide projitseerimiseks.

Kas mitmekesine õpe saab hakkama suurte andmekogumitega?

Standardsed mitmekesise meetodid, nagu t-SNE, skaleeruvad halvasti, keerukusega umbes O(n²), mistõttu on need ebapraktilised alates umbes 50 000 punktist. UMAP parandas skaleeritavust märkimisväärselt ja ligikaudsed variandid nagu FIt-SNE ja openTSNE nihutavad piire veelgi, kuid lineaarsed meetodid, nagu PCA, saavad siiski hõlpsalt hakkama palju suuremate andmekogumitega.

Miks on PCA ikka veel nii populaarne, kui mitmekülgne õpe on võimsam?

PCA on endiselt populaarne, kuna see on kiire, tõlgendatav, deterministlik ja hõlpsasti rakendatav. Selle lineaarne eeldus on sageli piisavalt hea paljude reaalsete probleemide lahendamiseks ja see integreerub sujuvalt masinõppe torujuhtmetesse. Mitmekesine õpe on teatud stsenaariumides võimsam, kuid toob kaasa keerukust, mis pole alati õigustatud.

Kas mitmekesised õppemeetodid säilitavad punktidevahelised kaugused?

Mitte päris. Enamik mitmekesisemaid meetodeid säilitab lokaalsed vahemaad, mis tähendab, et lähedalasuvad punktid jäävad lähedale, kuid globaalsed vahemaad on sageli moonutatud või mõttetud. Eelkõige on t-SNE tuntud klastritevahelise ruumi venitamise või kokkusurumise poolest, seega tuleks usaldada ainult lähedaste naabrite suhtelist asukohta.

Mis on mitmekesisuse hüpotees?

Mitmekesisushüpotees väidab, et kõrgmõõtmelised andmed asuvad tavaliselt palju madalama mõõtmega kõveral pinnal või selle lähedal, mis on paigutatud algsesse ruumi. Näiteks 3D-renderdatud nägu saab kirjeldada vaid mõne parameetriga, nagu nurk, valgustus ja ilme, isegi kui pikslite esitusel on tuhandeid mõõtmeid.

Kas ma saan PCA-d ja mitmekülgset õpet koos kasutada?

Absoluutselt. Levinud töövoog on kõigepealt rakendada PCA-d, et vähendada dimensionaalsust hallatavale tasemele, näiteks 50 komponendini, ja seejärel käivitada t-SNE või UMAP sellel vähendatud esitusel. See kiirendab mitmekesisuse algoritmi ja võib mõnikord vähendada müra, mis segab naabruskonna tuvastamist.

Kas UMAP on parem kui t-SNE?

UMAP on üldiselt kiirem kui t-SNE, skaleerub paremini suurte andmekogumite puhul ja säilitab globaalsema struktuuri. See toetab ka uute andmepunktide projitseerimist manustamisele, mida t-SNE ei tee. Siiski loovad mõlemad paljudel juhtudel sarnaseid visualiseeringuid ja valik taandub sageli kiirusnõuetele ja isiklikele eelistustele.

Kas lineaarseid meetodeid kasutatakse visualiseerimiseks?

Jah, PCA-d kasutatakse sageli kiirete 2D- või 3D-visualiseeringute jaoks, eriti mittelineaarsete meetodite proovimise eelkäijana. Lineaarsed projektsioonid on visuaalselt vähem silmatorkavad kui t-SNE või UMAP, kuid pakuvad eelist, kuna need on tõlgendatavad ja reprodutseeritavad, mis on oluline teadus- ja äriaruandluses.

Otsus

Lineaarse dimensiooni vähendamise poole pöörduge siis, kui vajate kiirust, tõlgendatavust ja usaldusväärset valimivälist projektsiooni, eriti masinõppe tootmisprotsessides. Valige mitmekesine õpe, kui teie eesmärk on uurimuslik visualiseerimine või kui kahtlustate tugevaid mittelineaarseid seoseid, mida PCA lihtsalt ei suuda tabada. Kõige targem töövoog hõlmab sageli PCA proovimist esmalt ja mitmekesiste meetodite juurde üleminekut alles siis, kui lineaarne vaade ei ole piisav.

Seotud võrdlused

A/B-testimine mudeli serveerimisel vs. ühe mudeli juurutamine

Mudeliteenuse A/B-testimine suunab liiklust konkureerivate mudeliversioonide vahel, et mõõta reaalset toimivust, samas kui ühe mudeli juurutamine saadab kõigile kasutajatele ühe mudeli. Meeskonnad valivad nende vahel riskitaluvuse, liiklusmahu ja statistilise valideerimise vajaduse alusel enne täielikku juurutamist.

A/B-testimine sisuväljaannetes vs ühekordsed sisuväljaanded

Sisuväljaannete A/B-testimine hõlmab variatsioonide levitamist erinevatele sihtrühmadele ja tulemuslikkuse mõõtmist, samas kui ühekordsed sisuväljaanded suunavad ühe versiooni korraga kõigile. Igal lähenemisviisil on erinevad eesmärgid, kusjuures A/B-testimine eelistab andmepõhist optimeerimist ja ühekordsed väljaanded seavad esikohale kiiruse ja lihtsuse.

Adaptiivne intelligentsus vs fikseeritud käitumissüsteemid

See detailne võrdlus uurib adaptiivsete intelligentsete mootorite arhitektuurilisi erinevusi, operatsioonilisi piiranguid ja reaalset jõudlust võrreldes fikseeritud käitumisega automatiseerimissüsteemidega. Vaatleme, kuidas süsteemid, mis pidevalt õpivad uutest keskkonnaandmetest, sobivad kokku jäikade ja ennustatavate reeglipõhiste raamistikega.

Adaptiivne otsing vs staatiline otsing

Adaptiivne otsing kohandab dünaamiliselt, kuidas ja millist teavet süsteem päringu põhjal hangib, samas kui staatilised otsingukanalid järgivad fikseeritud reegleid olenemata kontekstist. Mõlemad toetavad tänapäevaseid tehisintellekti rakendusi, kuid erinevad oluliselt paindlikkuse, maksumuse ja täpsuse poolest. Nende vahel valimine sõltub töökoormuse keerukusest ja eelarvest.

Agentide koolitus keskkondades vs. võrguühenduseta andmestiku koolitus

Agentide koolitamine keskkondades hõlmab õppimist reaalajas simuleeritud või füüsilise keskkonnaga suhtlemise kaudu, samas kui võrguühenduseta andmestiku koolitamine tugineb eelnevalt kogutud andmetele ilma täiendava keskkonnale juurdepääsuta. Mõlemad lähenemisviisid treenivad masinõppe mudeleid, kuid erinevad põhimõtteliselt selle poolest, kuidas agendid kogemusi koguvad ja jõudlust parandavad.