Nors koreliacijos analizė matuoja dviejų kintamųjų ryšio tiesinį stiprumą ir kryptį, vektorinė projekcija nustato, kiek vienas daugiamatis vektorius sutampa su kito krypties keliu. Pasirinkimas tarp jų lemia, ar analitikas atskleidžia paprastus statistinius ryšius, ar transformuoja daugiamatę erdvę pažangiems mašininio mokymosi srautams.
Akcentai
Koreliacija saugiai keičia santykių skalę nuo -1 iki 1, kad būtų lengva juos interpretuoti.
Vektorinė projekcija išsaugo geometrinį gylį ir erdvinį mastelį tarp matmenų.
Duomenų skalės skirtumai nekeičia koreliacijos, bet pakeičia projekcijos rezultatus.
Šiuolaikinės dirbtinio intelekto vektorinės duomenų bazės remiasi projekcijos, o ne klasikinės koreliacijos koncepcijomis.
Kas yra Koreliacijos analizė?
Statistinis metodas, naudojamas dviejų skirtingų duomenų sekų ryšio stiprumui ir krypčiai įvertinti.
Jis skaluoja reikšmes griežtai nuo -1,0 iki +1,0, kad parodytų ryšio stiprumą.
Jame daugiausia dėmesio skiriama standartizuotam dispersijos atitikimui, o ne erdvinėms koordinatėms.
Tai nenurodo ir nenustato priežastinio ryšio tarp analizuojamų kintamųjų.
Jį gali labai iškreipti kraštutiniai duomenų rinkinio nuokrypiai.
Naudojant standartinius Pearsono skaičiavimus, daroma prielaida, kad yra tiesinis ryšys.
Kas yra Vektorinė projekcija?
Geometrinė operacija, kuri susieja vieną vektorių su kitu, suskaidydama jį į krypties komponentus.
Gaunamas vektorius arba skaliarinė reikšmė, kuri išlaiko erdvinį mastelį.
Tai sudaro pagrindinį matematikos pagrindą pagrindinių komponentų analizei ir matmenų mažinimui.
Tai labai priklauso nuo skaliarinių sandaugų skaičiavimo daugiamatėje erdvėje.
Jis keičia dydį priklausomai nuo tikslinio bazinio vektoriaus ilgio.
Jis geometriškai nustato trumpiausią statmeną atstumą iki taikinio linijos.
Palyginimo lentelė
Funkcija
Koreliacijos analizė
Vektorinė projekcija
Pagrindinė matematikos sritis
Klasikinė statistika ir tikimybė
Tiesinė algebra ir erdvinė geometrija
Išvesties formatas
Vienmatis bematis skaliaras tarp -1 ir 1
Naujas vektorius arba mastelio keitimo ilgio reikšmė
Duomenų dimensija
Paprastai apdoroja vienmačių masyvų poras
Veikia daugiamatėse koordinačių erdvėse
Skalės jautrumas
Dėl standartizacijos nepriklauso nuo duomenų mastelio
Labai priklauso nuo vektorių dydžių ir ilgių
Pagrindinis šiuolaikinis naudojimo atvejis
Žvalgomųjų duomenų tyrimas ir hipotezių tikrinimas
LLM įterpimai, veido atpažinimas ir grafika
Geometrinis aiškinimas
Kampo tarp vidurkio centruotų vektorių kosinusas
Vieno vektoriaus metamas šešėlis ant kito bazinės linijos
Išsamus palyginimas
Matematiniai pagrindai ir skaičiavimai
Koreliacinė analizė sutelkia dėmesį į duomenų standartizavimą, kovariaciją padalijus iš standartinių nuokrypių sandaugos, taip sukuriant skalės neturinčią metriką. Vektorinė projekcija vengia šio standartizavimo, vektoriaus komponentus daugindama tiesiogiai per skaliarinę sandaugą, kad vieną liniją susietų su kita. Tai reiškia, kad koreliacija nagrinėja standartizuotą elgsenos sinchronizavimą, o projekcija – į absoliutų krypties suderinimą apibrėžtoje koordinačių sistemoje.
Duomenų matmenų ir mastelio tvarkymas
Dirbant su koreliacijos metodu, paprastai nagrinėjama, kaip du kintamieji kinta kartu laikui bėgant arba tarp imčių, neatsižvelgiant į jų pradinius vienetus. Vektorinė projekcija klesti didelėse daugiamatėse erdvėse, pavyzdžiui, sekant semantinę reikšmę dirbtinio intelekto teksto įterpimuose, kuriuose yra tūkstančiai dimensijų. Projekcija atsižvelgia į vektorių ilgį, o tai reiškia, kad didesni dydžiai pakeičia galutinę erdvinę išvestį, o koreliacijos juostelės visiškai išnyksta.
Operacinės programos analitikoje
Duomenų mokslininkai naudoja koreliaciją ankstyvojo duomenų valymo metu, kad aptiktų nereikalingas funkcijas arba patvirtintų pagrindines verslo prielaidas, pavyzdžiui, ar reklamos išlaidos yra susijusios su interneto srautu. Vektorinė projekcija tarnauja kaip darbo įrankis sudėtingiems algoritmams, padedantis sumažinti duomenų triukšmą pagrindinių komponentų analizėje arba apskaičiuoti semantinį panašumą šiuolaikinėse vektorinėse duomenų bazėse. Viena padeda suprasti paprastus ryšius, o kita atkuria duomenų architektūrą algoritmams.
Jautrumas išskirtinėms reikšmėms ir duomenų išdėstymams
Linijinės koreliacijos metrikos greitai sugenda, kai duomenys atitinka netiesines kreives arba juose yra didelių, neišvalytų anomalijų, kurios atitraukia tendencijos liniją nuo realybės. Vektorinė projekcija elgiasi nuspėjamai, nes laikosi griežtų geometrinių dėsnių, nors vienas didelio masto vektorius gali lengvai dominuoti projekcijos aplinkoje. Analitikai prieš projektuodami vektorius turi pašalinti mastelio skirtumus, o koreliacija automatiškai apdoroja dispersijos pokyčius.
Kosinuso panašumas ir vektoriaus projekcija yra tas pats matematinis veiksmas.
Realybė
Jie yra artimi giminaičiai, tačiau skiriasi mastelio tvarkymu. Kosinuso panašumas išskiria kampą tarp vektorių, visiškai ignoruodamas jų ilgį, o vektoriaus projekcija apskaičiuoja faktinį erdvinį nusileidimo tašką, kuris kinta pagal vektoriaus dydžius.
Mitas
Nulinis koreliacijos balas reiškia, kad du kintamieji neturi jokio ryšio.
Realybė
Nulis balų tik patvirtina tiesinio ryšio nebuvimą. Kintamieji vis tiek gali turėti tobulą, nuspėjamą parabolinį arba ciklinį modelį, kurio standartiniai koreliacijos algoritmai tiesiog nemato.
Mitas
Vektorinę projekciją galima apskaičiuoti tik paprastose dvimatėse arba trimatėse erdvėse.
Realybė
Pagrindinė tiesinė algebra nepriekaištingai veikia begalinėse dimensijose. Šiuolaikiniai mašininio mokymosi modeliai reguliariai projektuoja vektorius pirmyn ir atgal per aplinkas, turinčias tūkstančius skirtingų dimensijų.
Mitas
Didelė koreliacija įrodo, kad vienas kintamasis aktyviai skatina kito kintamojo pokyčius.
Realybė
Tai klasikiniai analitiniai spąstai. Didelė koreliacija tiesiog parodo, kad du duomenų modeliai juda kartu, dažnai todėl, kad abu reaguoja į paslėptą trečią veiksnį, kuris nebuvo užfiksuotas.
Dažnai užduodami klausimai
Kaip duomenų centravimas aplink nulinį vidurkį susieja koreliaciją su vektorine projekcija?
Kai imamas duomenų rinkinys ir centruojamos jo reikšmės taip, kad vidurkis būtų lygus nuliui, šių dviejų sąvokų matematika gražiai susilieja. Tiksliau, Pearsono koreliacijos koeficientas tampa identiškas kampo tarp šių dviejų vidurkio centruotų duomenų vektorių kosinusui. Šis sutapimas panaikina atotrūkį tarp klasikinės statistikos ir erdvinės tiesinės algebros, parodydamas, kad koreliacija iš esmės yra specializuotas geometrinis kampo patikrinimas.
Kodėl vektorinės duomenų bazės teikia pirmenybę erdviniams atstumams, o ne standartiniams koreliacijos skaičiavimams?
Vektorinės duomenų bazės apdoroja didelius failus, tokius kaip teksto įterpimai, vaizdai ar garso profiliai, kurie konvertuojami į ilgus koordinačių masyvus. Tradicinių koreliacijos matricų vykdymas milijonuose daugiamačių taškų yra sudėtingas skaičiavimo požiūriu ir neatitinka erdvinės orientacijos reikalavimų. Vektorinės operacijos, tokios kaip taškinės sandaugos ir projekcijos, šiuolaikinėje įrangoje veikia žaibiškai, todėl jos idealiai tinka panašumo atitikimui realiuoju laiku.
Ar galima naudoti vektorinę projekciją, norint išvalyti nereikalingus elementus duomenų rinkinyje?
Be jokios abejonės, ši strategija sudaro pagrindinį pagrindinių komponentų analizės (PCA) planą. Projektuodami didžiulį duomenų vektorių debesį ant naujo statmenų bazinių vektorių rinkinio, galite matyti, kurios kryptys užfiksuoja didžiausią dispersiją. Tada galite atsisakyti dimensijų, kurios rodo minimalų projekcijos ilgį, sumažindami duomenų pėdsaką, išlaikydami pagrindinę informaciją nepažeistą.
Kas nutinka vektoriaus projekcijai, jei staiga padvigubinu tikslinio vektoriaus dydį?
Jei projektuojate vektorių A į vektorių B, tikrasis vektoriaus projekcijos rezultatas išlieka toks pats, nes B kryptis nepasikeitė. Tačiau jei skaičiuojate skaliarinį komponentą, kuriam naudojamos formulės ilgiui B atžvilgiu rasti, reikšmė atitinkamai pasikeičia. Rašant algoritmo kodą, labai svarbu sekti, ar jums reikia kryptinio vektoriaus, ar neapdoroto skaliarinio ilgio.
Kuri metrika geriau tvarko triukšmingas, realaus pasaulio verslo ataskaitų suvestines?
Koreliacinė analizė paprastai laimi pagrindiniuose verslo ataskaitų suvestinėse, nes ji pašalina neapdorotų skaičių triukšmą, sutelkdama dėmesį tik į tendencijos kryptį. Jei jūsų pardavimų skaičiai naudoja dideles vertes, o konversijos rodikliai yra labai maži procentai, koreliacija juos normalizuoja automatiškai, kad galėtumėte matyti, ar jie juda kartu. Vektorinė projekcija reikalautų pirmiausia rankiniu būdu normalizuoti duomenų skales, kad pardavimų skaičiai nepažeistų matematikos.
Kada analitikas turėtų rinktis Spearmano koreliaciją, o ne standartinę Pearsono koreliaciją?
Turėtumėte pereiti prie Spearmano koreliacijos, kai jūsų duomenys juda kartu nuosekliai, bet ne idealiai tiesia linija. Prieš atlikdami skaičiavimus, Spearmanas konvertuoja neapdorotus skaičius į surūšiuotas pozicijas. Šis poslinkis leidžia sėkmingai išmatuoti monotoninius ryšius, tokius kaip eksponentinio augimo kreivės, kur standartinės Pearsono formulės parodytų ydingą, susilpnėjusį ryšį.
Kaip ortogonalumo sąvoka taikoma šiems dviem rodikliams?
Ortogonalumas reiškia, kad du objektai yra visiškai nepriklausomi vienas nuo kito. Vektorinėje geometrijoje, jei du vektoriai yra ortogonalūs, jie yra 90 laipsnių kampu, o tai reiškia, kad projektuojant vieną ant kito gaunamas nulis rezultatas. Statistikoje, kai du duomenų srautai yra visiškai nekoreliuoti, jų koreliacijos koeficientas lygus nuliui, o tai reiškia, kad jie neturi persidengiančios dispersijos ar tiesinio ryšio.
Ar didelis vektoriaus panašumas reiškia, kad du kintamieji laikui bėgant parodys stiprią koreliaciją?
Nebūtinai, nes panašumo metrikos dažnai nagrinėja statinę vietą įterpimo erdvėje, o ne koordinuotą judėjimą laiko juostoje. Du vektoriai modelio erdviniame žemėlapyje gali būti arti vienas kito, nes jie turi tą pačią konceptualią kategoriją, tačiau jų kasdienės operacinės vertės gali judėti visiškai nepriklausomai. Turite pritaikyti įrankį konkrečiam klausimui, į kurį norite gauti atsakymą.
Nuosprendis
Rinkitės koreliacinę analizę, kai reikia greitai įvertinti dviejų kintamųjų ryšį arba patikrinti statistinių modelių daugiakolinearumą. Kurdami mašininio mokymosi darbo eigas, manipuliuodami erdviniais įterpimais arba mažindami sudėtingų, daugiakintamųjų duomenų rinkinių matmenis, kreipkitės į vektorių projekciją.