머신러닝차원 축소데이터 과학인공지능비지도 학습

매니폴드 학습 vs 선형 차원 축소

매니폴드 학습과 선형 차원 축소는 모두 고차원 데이터를 다루지만, 구조를 보존하는 방식에서 근본적인 차이가 있습니다. 선형 방식은 데이터가 평평한 초평면 상에 놓여 있다고 가정하는 반면, 매니폴드 학습은 곡선 형태의 비선형적 관계를 밝혀냅니다. 따라서 데이터의 본질적인 기하학적 구조가 평면인지 곡선인지에 따라 어떤 방식을 선택할지 결정해야 합니다.

주요 내용

매니폴드 학습은 곡선 기하학을 가정하는 반면, 선형 방법은 평면 초평면을 가정합니다.
선형적 방법은 전역 구조를 보존하는 반면, 매니폴드적 방법은 지역적 근접성을 우선시합니다.
PCA와 유사 알고리즘들은 수백만 개의 데이터셋까지 확장 가능하지만, t-SNE와 UMAP은 수만 개를 넘어서는 데 어려움을 겪습니다.
선형 투영은 새로운 데이터에 즉시 적용할 수 있지만, 매니폴드 임베딩은 종종 그렇지 못합니다.

매니폴드 러닝이(가) 무엇인가요?

고차원 데이터 속에 숨겨진 저차원의 곡선 구조를 드러내는 비선형 기법의 한 종류.

매니폴드 학습은 고차원 데이터가 실제로는 저차원 곡면 위에 놓여 있다는 매니폴드 가설에 기반을 두고 있습니다.
널리 사용되는 알고리즘으로는 Isomap, Locally Linear Embedding (LLE), t-SNE, UMAP, Laplacian Eigenmaps 등이 있습니다.
이 기법은 주변 환경을 보존하는 데 탁월합니다. 즉, 고차원 공간에서 인접한 지점은 축소된 표현에서도 가까운 위치를 유지합니다.
대부분의 매니폴드 방법은 샘플 외 투영에 어려움을 겪기 때문에 재학습 없이는 새로운 데이터 포인트를 매핑하기 어렵습니다.
t-SNE와 UMAP은 단일 세포 RNA 시퀀싱 및 이미지 임베딩과 같은 복잡한 데이터 세트를 시각화하는 데 널리 사용됩니다.

선형 차원 축소이(가) 무엇인가요?

선형 변환을 이용하여 고차원 데이터를 저차원 부분 공간으로 투영하는 기법.

가장 유명한 선형 분석 방법인 주성분 분석(PCA)은 1901년 칼 피어슨에 의해 개발되었습니다.
선형 방법은 데이터의 분산이 원래 특징 공간에서 직교하는 축을 따라 가장 잘 포착된다고 가정합니다.
이들은 전역 구조를 보존하는데, 이는 전체적인 모양과 멀리 떨어진 지점 사이의 거리가 유지됨을 의미합니다.
선형 기법은 계산 효율성이 뛰어나고 수백만 개의 샘플까지 확장성이 우수합니다.
PCA 외에도 선형 판별 분석(LDA), 요인 분석 및 절단된 SVD가 이 범주에 속합니다.

비교 표

기능	매니폴드 러닝	선형 차원 축소
핵심 가정	데이터는 곡선 형태의 저차원 매니폴드 상에 존재합니다.	데이터는 평평한 선형 부분 공간 상에 존재합니다.
구조가 보존됨	주로 지역 주민들	주로 전역적 변동성
계산 비용	일반적으로 더 높으며, 종종 O(n²) 또는 그보다 더 나쁩니다.	낮음, 일반적으로 O(n·d²) 또는 그보다 빠름
해석 가능성	아래쪽의 축은 직접적인 의미를 갖는 경우가 드뭅니다.	상위 구성 요소는 종종 원래 기능과 관련이 있습니다.
확장성	제한적이며, 수만 점을 넘어서는 데 어려움을 겪습니다.	탁월한 성능을 자랑하며 수백만 개의 샘플을 처리할 수 있습니다.
표본 외 투영	어렵기 때문에 근사법이 필요합니다.	행렬 곱셈을 이용하면 간단합니다.
최적 활용 사례	시각화, 비선형 패턴, 이미지 및 생물학적 데이터	특징 압축, 전처리, 노이즈 감소
예시 알고리즘	t-SNE, UMAP, Isomap, LLE	PCA, LDA, 요인 분석, 절단된 SVD

상세 비교

데이터에 대한 기하학적 가정

이러한 접근 방식들 사이의 가장 큰 철학적 차이는 데이터의 형태에 대한 관점 차이에 있습니다. 선형 차원 축소는 고차원 데이터를 마치 평평한 초평면 위에 존재하는 것처럼 취급하며, 직선과 직교 투영이 가장 중요한 변화를 포착한다고 봅니다. 반면 매니폴드 학습은 정반대의 관점을 취하며, 실제 데이터는 구겨진 종이처럼 고차원 공간에서 접히고 휘어지는 경우가 많다고 주장합니다. 구겨진 종이를 펼치면 2차원 표면이 되듯이, 매니폴드 알고리즘은 수학적으로 바로 그러한 과정을 재현하려고 합니다.

지역 구조 보존 vs 전역 구조 보존

PCA와 같은 선형 방법은 전역 구조를 중시합니다. 이러한 방법은 원래 공간에서 멀리 떨어져 있는 점들이 투영 후에도 멀리 떨어져 있도록 유지하는데, 이는 전체적인 분산을 이해하는 데는 좋지만 미세한 클러스터를 구분하기는 어려울 수 있습니다. 매니폴드 학습은 이러한 우선순위를 뒤집어, 가까운 점들을 서로 가깝게 유지하는 데 집중합니다. 이것이 바로 t-SNE와 UMAP이 클러스터의 전체적인 배열이 다소 임의적일지라도 클러스터가 뚜렷하게 드러나는 인상적인 시각화를 만들어내는 이유입니다.

계산 실용성

데이터셋 규모가 커질수록 선형 방법론이 훨씬 유리해집니다. PCA는 고유값 분해 또는 특이값 분해를 이용하여 효율적으로 계산할 수 있으며, scikit-learn과 같은 라이브러리는 수백만 개의 행을 손쉽게 처리합니다. 반면, 매니폴드 알고리즘은 확장성이 떨어지는 이웃 그래프 구축을 필요로 하는 경우가 많으며, 특히 t-SNE는 샘플 수에 대해 제곱에 비례하는 복잡도를 가집니다. UMAP은 이러한 문제를 다소 개선했지만, 두 방법론 모두 대규모 파이프라인에서는 여전히 선형 방법론에 비해 크게 뒤처집니다.

해석 가능성 및 배포

선형 방법은 차원 축소의 의미를 설명해야 할 때 명확한 이점을 제공합니다. PCA 구성 요소는 원래 특징들의 가중 조합이므로 로딩을 검사하고 각 축을 유도하는 변수를 이해할 수 있습니다. 반면 매니폴드 임베딩은 축이 사람이 해석할 수 있는 어떤 의미와도 거의 대응하지 않아 불투명한 것으로 악명 높습니다. 또한 선형 방법은 학습된 변환 행렬을 사용하여 새로운 데이터 포인트를 즉시 투영할 수 있는 반면, 매니폴드 방법은 새로운 샘플을 처리하기 위해 재학습이나 복잡한 근사치를 필요로 하는 경우가 많습니다.

각각의 접근 방식이 빛을 발할 때

선형 차원 축소는 전처리 파이프라인, 특징 압축, 그리고 속도와 해석 가능성이 중요한 상황에서 여전히 기본 선택 사항입니다. 매니폴드 학습은 이미지, 음성 스펙트로그램, 유전자 발현 프로파일과 같이 데이터에 명확한 비선형 구조가 있을 때, 그리고 배포보다는 탐색이 목표일 때 그 진가를 발휘합니다. 실제로 많은 데이터 과학자들은 먼저 PCA를 기준선으로 실행한 다음, 선형 투영에서 의미 있는 패턴이 드러나지 않을 때만 매니폴드 방법을 사용합니다.

장단점

매니폴드 러닝

장점

+ 비선형 패턴을 포착합니다
+ 시각화에 탁월합니다.
+ 숨겨진 클러스터를 드러냅니다
+ 로컬 기하학을 보존합니다

− 계산 비용이 많이 든다
− 해석하기 어렵다
− 표본 외 매핑이 불량함
− 하이퍼파라미터에 민감함

선형 차원 축소

장점

+ 빠르고 확장 가능
+ 해석하기 쉽습니다
+ 결정론적 결과
+ 간편한 배포

− 비선형 구조를 놓칩니다
− 평면 투영에만 해당됩니다.
− 밀집된 영역을 흐릿하게 만들 수 있습니다.
− 직교 분산을 가정합니다.

흔한 오해

신화

매니폴드 학습은 더 정교하기 때문에 항상 PCA보다 우수한 성능을 보입니다.

현실

정교함이 곧 더 나은 성능을 의미하는 것은 아닙니다. PCA는 분류 전처리나 노이즈 감소와 같은 작업에서 매니폴드 학습법과 동등하거나 더 나은 성능을 보이는 경우가 많습니다. 매니폴드 학습은 시각화와 같은 특정 시나리오에서 탁월한 성능을 발휘하지만, 많은 실제 머신러닝 작업에서는 PCA가 더 나은 선택입니다.

신화

t-SNE와 UMAP은 데이터의 전역 구조를 보존합니다.

현실

두 방법 모두 지역적 근접성을 강조하기 위해 전역 거리를 명시적으로 왜곡합니다. t-SNE 플롯에서 클러스터 간의 거리는 의미 있는 정보를 거의 담고 있지 않으며, 인접한 점들의 상대적 위치만을 해석해야 합니다.

신화

PCA는 데이터가 정규 분포를 따른다고 가정합니다.

현실

PCA는 정규성을 요구하지 않습니다. 분산이 보존해야 할 의미 있는 양이며, 특징들의 선형 조합이 중요한 구조를 포착한다는 것만 가정합니다. PCA는 다양한 분포에서 작동하지만, 꼬리가 두꺼운 분포를 보이는 데이터는 결과를 왜곡할 수 있습니다.

신화

t-SNE를 실행한 후에는 해당 임베딩 결과를 하위 모델의 입력으로 사용할 수 있습니다.

현실

지도 학습에서 t-SNE 또는 UMAP 임베딩을 특징으로 사용하는 것은 일반적으로 권장되지 않습니다. 이러한 임베딩은 거리를 왜곡하고 전역 정보를 손실하기 때문입니다. PCA 또는 기타 선형 방법이 특징 엔지니어링 파이프라인에서 일반적으로 더 안전한 선택입니다.

신화

매니폴드 학습은 정보 손실 없이 모든 데이터셋을 2차원으로 축소할 수 있습니다.

현실

모든 차원 축소 과정에는 어느 정도의 정보 손실이 수반됩니다. 매니폴드 방법은 국소적인 관계는 보존하지만 전체적인 정확도를 희생하며, 2차원으로의 과도한 축소는 후속 작업에 중요한 변형을 숨길 수 있습니다.

자주 묻는 질문

매니폴드 학습과 PCA의 주요 차이점은 무엇인가요?

PCA는 데이터가 평평한 선형 부분 공간에 놓여 있다고 가정하고 최대 분산을 갖는 직교 축을 찾습니다. 매니폴드 학습은 데이터가 곡면 위에 놓여 있다고 가정하고 주변 영역을 보존하면서 곡면을 '펼치려고' 합니다. 핵심적인 차이점은 기본 기하학에 대한 선형적 가정과 비선형적 가정에 있습니다.

PCA 대신 매니폴드 학습을 사용해야 하는 경우는 언제일까요?

이미지, 음성 특징, 생물학적 데이터와 같이 PCA로는 포착하기 어려운 명확한 비선형 구조를 가진 데이터의 경우, 매니폴드 학습을 활용하는 것이 좋습니다. 또한 시각화가 목표이고 클러스터가 명확하게 나타나도록 하려는 경우에도 더 나은 선택입니다. 하지만 전처리 또는 프로덕션 파이프라인에서는 PCA가 일반적으로 더 빠르고 실용적입니다.

t-SNE는 매니폴드 학습 방법인가요?

네, t-SNE는 주변 구조를 보존하고 비선형 패턴을 드러내기 때문에 매니폴드 학습 기법으로 간주됩니다. 하지만 t-SNE는 일반적인 차원 축소보다는 시각화를 위해 주로 설계되었으며, 새로운 데이터 포인트를 투영하는 방법을 제공하지 않습니다.

매니폴드 학습은 대규모 데이터셋을 처리할 수 있을까요?

t-SNE와 같은 표준 매니폴드 방법은 확장성이 떨어지며, 복잡도는 O(n²) 정도이므로 약 5만 개 이상의 데이터 포인트에서는 실용적이지 않습니다. UMAP은 확장성을 크게 개선했고, FIt-SNE 및 openTSNE와 같은 근사 변형은 한계를 더욱 확장했지만, PCA와 같은 선형 방법은 여전히 훨씬 더 큰 데이터 세트를 쉽게 처리합니다.

매니폴드 학습이 더 강력하다면 왜 PCA는 여전히 그렇게 인기가 많을까요?

PCA는 빠르고, 해석하기 쉽고, 결정론적이며, 배포가 간편하기 때문에 여전히 널리 사용됩니다. 선형 가정을 전제로 하기 때문에 많은 실제 문제에 적용 가능하며, 머신러닝 파이프라인에 깔끔하게 통합됩니다. 매니폴드 학습은 특정 시나리오에서 더 강력하지만, 항상 정당화되는 것은 아닌 복잡성을 초래합니다.

매니폴드 학습 방법은 점들 사이의 거리를 보존합니까?

정확히는 아닙니다. 대부분의 매니폴드 방법은 국소 거리를 보존합니다. 즉, 가까운 점들은 가까이에 유지되지만, 전역 거리는 종종 왜곡되거나 의미가 없어집니다. 특히 t-SNE는 클러스터 사이의 공간을 늘리거나 줄이는 것으로 알려져 있으므로, 가까운 이웃의 상대적인 위치만 신뢰해야 합니다.

다양체 가설이란 무엇인가?

매니폴드 가설은 고차원 데이터가 일반적으로 원래 공간에 내장된 훨씬 저차원의 곡면 위 또는 근처에 존재한다고 주장합니다. 예를 들어, 3D로 렌더링된 얼굴은 픽셀 표현이 수천 개의 차원을 가지고 있음에도 불구하고 각도, 조명, 표정과 같은 몇 가지 매개변수만으로 설명될 수 있습니다.

PCA와 매니폴드 학습을 함께 사용할 수 있나요?

물론입니다. 일반적인 워크플로는 먼저 PCA를 적용하여 차원을 50개 구성 요소와 같은 관리 가능한 수준으로 축소한 다음, 축소된 표현에 t-SNE 또는 UMAP을 실행하는 것입니다. 이렇게 하면 매니폴드 알고리즘의 속도가 향상되고, 때로는 이웃 탐지를 방해하는 노이즈를 줄일 수 있습니다.

UMAP이 t-SNE보다 더 나은가요?

UMAP은 일반적으로 t-SNE보다 속도가 빠르고, 대규모 데이터셋에 대한 확장성이 뛰어나며, 더 많은 전역 구조를 보존합니다. 또한 t-SNE와 달리 새로운 데이터 포인트를 임베딩에 투영하는 기능을 지원합니다. 하지만 두 방법 모두 많은 경우 유사한 시각화 결과를 제공하며, 선택은 속도 요구 사항과 개인적인 선호도에 따라 달라집니다.

시각화에 선형 방법이 사용되는 경우가 있나요?

네, PCA는 특히 비선형 분석 방법을 시도하기 전 기준선으로 사용될 때, 빠른 2D 또는 3D 시각화에 자주 활용됩니다. 선형 투영은 t-SNE나 UMAP보다 시각적으로 덜 인상적이지만, 해석 가능하고 재현성이 뛰어나다는 장점이 있으며, 이는 과학 및 비즈니스 보고서 작성에 중요한 요소입니다.

평결

특히 실제 운영 환경의 머신러닝 파이프라인에서 속도, 해석 가능성, 그리고 신뢰할 수 있는 표본 외 예측이 필요할 때는 선형 차원 축소(PCA)를 활용하세요. 탐색적 시각화가 목표이거나 PCA로는 포착할 수 없는 강력한 비선형 관계가 의심될 때는 매니폴드 학습을 선택하는 것이 좋습니다. 가장 효율적인 워크플로는 종종 PCA를 먼저 시도하고, 선형적 관점이 충분하지 않을 때만 매니폴드 학습 방법으로 넘어가는 것입니다.