математикамаалымат таануусызыктуу-алгебрамашиналык окутуу
Негизги компоненттер жана жекелик маанилер
Маалымат таануучулар өлчөмдүүлүктү азайтууда эки терминди тең көп кездештирсе да, негизги компоненттер маалыматтар топтомундагы максималдуу дисперсиянын багыттарын сүрөттөйт, ал эми сингулярдык маанилер матрицаны декомпозициялоо учурунда ошол геометриялык октор боюнча масштабдоонун чоңдугун өлчөйт. Алардын математикалык көпүрөсүн түшүнүү PCA жана SVD сыяктуу алгоритмдерди өздөштүрүү үчүн абдан маанилүү.
Көрүнүктүү нерселер
Негизги компоненттер маалыматтардын дисперсиясынын мейкиндик багытын аныктайт, ал эми сингулярдык маанилер масштабды аныктайт.
Түз математикалык көпүрө аларды негизги маалымат матрицасы туура орточо борборго коюлганда гана байланыштырат.
SVD жекелик маанилерди түздөн-түз эсептейт, бул негизги компоненттерди табуунун сандык жактан туруктуу жолун камсыз кылат.
Негизги компоненттер бири-бирине ортогоналдуу болушу керек, ал эми сингулярдык маанилер толугу менен терс эмес чыныгы сандар.
Негизги компоненттер эмне?
Максималдуу дисперсиянын багыттарын көрсөткөн ортогоналдык векторлор, жогорку өлчөмдүү маалыматтарды жөнөкөйлөтүүгө жана кыскартууга жардам берет.
Алар маалыматтар топтомунун ковариациялык матрицасынын өздүк векторлоруна түздөн-түз дал келет.
Биринчи негизги компонент маалыматтардагы мүмкүн болгон эң жогорку дисперсияны түзөт.
Ар бир кийинки компонент мурункуларына так ортогоналдык, бул нөлдүк корреляцияны камсыз кылат.
Алар маалыматтарды масштабдоого абдан көз каранды, бул орточо маанини борборлоштурууну алдын ала иштетүүнүн маанилүү кадамына айлантат.
Инженерлер аларды маалыматты сактоо менен бирге чоң өлчөмдүү мейкиндиктерди төмөнкү өлчөмдөргө чейин долбоорлоо үчүн колдонушат.
Негизги компоненттер маалыматтардын эң көп өзгөрө турган белгилүү бир багыттарын билдирет жана оптималдаштырылган координаттар системасы үчүн жаңы октор катары кызмат кылат. Ал эми сингулярдык маанилер - бул матрицанын ошол октор боюнча мейкиндикти канчалык созуп же кысып жатканын көрсөткөн скалярдык чоңдуктар. Бири маалымат булутунун багытын берсе, экинчиси трансформациянын өзүнүн чоңдугун өлчөйт.
Математикалык эсептөө
Негизги компоненттерди салттуу түрдө табуу үчүн, сиз маалыматтар топтомунун ковариациялык матрицасынын өздүк векторлорун эсептешиңиз керек. Сингулярдык маанилер Сингулярдык маанини ажыратуудан келип чыгат, мында ар кандай матрица үч башка компоненттик матрицага бөлүнөт. Маалыматтарыңызды орточо маанини кемитүү менен борборлоштурганда, сингулярдык маанинин квадратын үлгүнүн көлөмүнө бөлүп, андан бирге бөлгөндө, ал негизги компоненттин дисперсиясы кемчиликсиз барабар болот.
Маалыматтарды алдын ала иштетүүгө сезгичтик
Эгерде сиз маалыматтарыңызды борборлоштурууну же стандартташтырууну унутуп калсаңыз, негизги компоненттер кескин өзгөрөт, анткени статистикалык дисперсия баштапкы чекитке жана өзгөрүлмө масштабдарга көп көз каранды. Бирок, сингулярдык маанилер берилген чийки матрицанын фундаменталдык алгебралык касиети болуп саналат. Колдонуучу атайылап борборлоштурулган ковариацияга окшош матрицаны түзбөсө, алар статистикалык божомолдорго маани беришпейт.
Өнөр жайдагы практикалык колдонмолор
Маалымат аналитиктери жөнөкөй эки өлчөмдүү графиктерде татаал, жогорку өлчөмдүү маалымат топтомдорун визуалдаштыруу үчүн негизги компоненттерге таянышат. Башка жагынан алганда, компьютердик көрүү инженерлери төмөнкү рангдагы матрицалык жакындаштыруулар аркылуу сүрөттөрдү кысуу жана сунуштоо системалары үчүн сингулярдык маанилерди колдонушат. SVD чындыгында PCAнын артындагы артыкчылыктуу сандык кыймылдаткыч болуп саналат, анткени сингулярдык маанилерди эсептөө ковариациялык матрицаны түзүүдө пайда болгон тактыктын жоголушун алдын алат.
Артыкчылыктары жана кемчиликтери
Негизги компоненттер
Артыкчылыктары
+Маалыматтарды визуалдаштыруу үчүн эң сонун
+Мультиколлинеардуулукту жок кылат
+Ызы-чууну натыйжалуу азайтат
+Машина үйрөнүү моделдерин жөнөкөйлөштүрөт
Конс
−Түз физикалык мааниси жок
−Сырткы таасирлерге өтө сезгич
−Катуу алдын ала иштетүүнү талап кылат
−Маалыматтын жоголушу болот
Сингулярдык маанилер
Артыкчылыктары
+каалаган матрицада иштейт
+Сандык жактан өтө туруктуу
+Төмөнкү рангдагы жакындаштыруу үчүн идеалдуу
+Матрицанын рейтингин заматта көрсөтөт
Конс
−Абстракттуу математикалык түшүнүк
−Чоң матрицалар үчүн эсептөө кымбат
−Ички статистикалык контексттин жоктугу
−Чечмелөө сызыктуу алгебраны талап кылат
Жалпы каталар
Мит
Негизги компоненттер жана сингулярдык маанилер толугу менен көз карандысыз түшүнүктөр.
Чындык
Алар маалыматтарды борборлоштуруу аркылуу терең чырмалышкан. Маалымат матрицасынын орточо мааниси кемитилгенде, анын сингулярдык маанилери негизги компоненттер боюнча дисперсиялардын квадраттык тамырларына түз пропорционалдуу болот.
Мит
Негизги компоненттерди табуу үчүн сиз ар дайым ковариация матрицасын эсептеп чыгышыңыз керек.
Чындык
Заманбап программалык камсыздоо ковариация матрицасын сейрек эсептейт, анткени ал сандык тегеректөө каталарын киргизет. Анын ордуна, алгоритмдер SVDди маалымат матрицасында түздөн-түз иштетип, негизги компоненттерди алда канча коопсуз жана натыйжалуу бөлүп алат.
Мит
Эгерде маалыматтар терс корреляцияны көрсөтсө, сингулярдык маанилер терс болушу мүмкүн.
Чындык
Сингулярдык маанилер аныктама боюнча симметриялуу матрицадан алынган өздүк маанилердин оң квадрат тамырлары болуп саналат. Алар баштапкы маалыматтардагы корреляцияларга карабастан, узундуктарды же созулуучу факторлорду билдирген ар дайым терс эмес чыныгы сандар.
Мит
Бардык маалымат чекиттерине туруктуу маани кошуу жекелик маанилерди жана негизги компоненттерди бирдей өзгөртөт.
Чындык
Маалыматтарды туруктуу санга жылдыруу сингулярдык маанилерди өзгөртөт, анткени чийки матрица жазуулары өзгөрөт. Бирок, негизги компоненттер ковариациялык матрицага таянгандыктан, ал орточо маанини кемитип салат, маалыматтарды жылдыруу негизги компоненттерди толугу менен өзгөрүүсүз калтырат.
Мит
Биринчи негизги компонент ар дайым бардык баалуу маалыматтарды камтыйт.
Чындык
Биринчи компонент бир гана ок боюнча максималдуу дисперсияны чагылдырат. Эгерде маалыматтарыңыз сфералык түрдө бөлүштүрүлгөн болсо же маанилүү сызыктуу эмес үлгүлөрдү камтыса, бир сызыктуу компонент эң маанилүү структураларды толугу менен көрсөтпөй калышы мүмкүн.
Көп суралуучу суроолор
Сингулярдык маанини негизги компоненттин дисперсиясына кантип айландырасыз?
Эгерде сизде берилген сандагы үлгүлөрү бар орточо борборлоштурулган маалымат матрицасы болсо, анда сиз сингулярдык маанини квадраттап, аны үлгүнүн көлөмүнө минус бирге бөлөсүз. Бул математикалык операция ковариациялык матрицанын так өздүк маанисин берет, ал ошол негизги компонент тарабынан алынган дисперсияны билдирет.
SVD колдонбостон PCA аткара аласызбы?
Ооба, сиз ковариация матрицасын так эсептөө жана андан кийин анын өздүк векторлорун классикалык өздүк декомпозиция аркылуу табуу менен негизги компоненттерди таба аласыз. Бирок, бул ыкма SVD ыкмасына караганда сандык жактан анча туруктуу эмес жана калкып жүрүүчү чекиттүү каталарга көбүрөөк дуушар болот, ошондуктан SVD тармактык стандарт болуп саналат.
Эмне үчүн маалыматтарды борборлоштуруу негизги компоненттер үчүн ушунчалык маанилүү?
PCA маалымат булутунун борборунун айланасындагы дисперсияны максималдаштырууну көздөйт. Эгерде сиз маалыматтардын орточо маанисин баштапкы чекитке жылдырбасаңыз, биринчи негизги компонент жөн гана баштапкы чекиттен маалымат кластеринин борборуна багыттайт жана дисперсиянын ички геометриялык түзүлүшүн чагылдыра албайт.
Эгерде матрицанын сингулярдык мааниси нөлгө барабар болсо, эмне болот?
Нөлдүк сингулярдык маани матрицанын рангы жетишсиз жана аны тескери бурууга мүмкүн эмес дегенди билдирет. Геометриялык жактан алганда, ал сызыктуу трансформация жок дегенде бир өлчөмдү толугу менен тегиз кылып, көлөмдү тегиздикке же сызыкка кыскартат дегенди билдирет.
Негизги компоненттер өздүк векторлор менен бирдейби?
Алар бири-бири менен тыгыз байланышта, бирок терминологиясы боюнча айырмаланат. Негизги компоненттер - бул жаңы октор боюнча проекцияланган чыныгы маалымат чекиттери, бирок көптөгөн практиктер бул терминди ковариациялык матрицанын өздүк векторлору болгон негизги багыттарды көрсөтүү үчүн колдонушат.
Сүрөттү кысуу үчүн кайсынысы жакшыраак, PCA же SVD?
SVD, жалпысынан, төмөнкү рангдагы жакындаштыруу деп аталган ыкма аркылуу сүрөттөрдү кысуу үчүн артыкчылыктуу жана түз колдонулат. Сүрөт көз карандысыз байкоолордун статистикалык үлгүсү эмес, пикселдердин структураланган матрицасы болгондуктан, SVD файлдын өлчөмүн кемчиликсиз азайтуу үчүн эң аз мааниге ээ болгон сингулярдык маанилерди кыскартат.
Моделде канча негизги компонентти сактоо керек?
Көп колдонулган ыкма - бул схеманы карап чыгуу же сингулярдык маанилерди колдонуп, кумулятивдик түшүндүрүлгөн дисперсияны эсептөө. Көпчүлүк маалымат таануучулар белгилүү бир долбоордун ызы-чуу деңгээлине жараша жалпы дисперсиянын 80% дан 95% га чейин кармоо үчүн жетиштүү компоненттерди сактап калууга умтулушат.
Жок, матрицаны транспозициялоо анын сингулярдык маанилерин өзгөртпөйт. Матрицанын жана анын транспозициясынын нөлдөн башка сингулярдык маанилери толугу менен бирдей бойдон калат, анткени алардын тиешелүү кайчылаш көбөйтүндү матрицаларынын өздүк маанилери так бирдей.
Жеке маани менен сингулярдык маанинин ортосунда кандай айырма бар?
Өздүк маанилер квадраттык матрицалар үчүн гана аныкталат жана комплекстүү сандар болушу мүмкүн, бул вектордун багытын өзгөртпөстөн кантип масштабдалаарын билдирет. Сингулярдык маанилер каалаган матрицага тиешелүү, ар дайым реалдуу жана терс эмес жана трансформация учурунда бирдик сферанын максималдуу созулушун билдирет.
Чыгарма
Эгерде сиздин негизги максатыңыз дисперсияга негизделген статистикалык маалыматтар топтомунун өзгөчөлүктөрүн чечмелөө, визуалдаштыруу же азайтуу болсо, негизги компоненттерди тандаңыз. Статистикалык алдын ала иштетүү жөнүндө кабатыр болбостон, сызыктуу системаларды чыгаруу, матрицаларды кысуу же туруктуу сандык эсептөөлөрдү жүргүзүү керек болгондо сингулярдык маанилерди тандаңыз.