học máygiảm chiềukhoa học dữ liệutrí tuệ nhân tạohọc tập không giám sát
Học đa tạp so với giảm chiều tuyến tính
Học đa tạp và giảm chiều tuyến tính đều xử lý dữ liệu đa chiều, nhưng chúng khác nhau về cơ bản ở cách bảo toàn cấu trúc. Các phương pháp tuyến tính giả định dữ liệu nằm trên một siêu mặt phẳng, trong khi học đa tạp khám phá các mối quan hệ cong, phi tuyến tính. Việc lựa chọn giữa hai phương pháp phụ thuộc vào việc hình học nội tại của dữ liệu là phẳng hay cong.
Điểm nổi bật
Học tập trên đa tạp giả định hình học cong; các phương pháp tuyến tính giả định các siêu mặt phẳng phẳng.
Các phương pháp tuyến tính bảo toàn cấu trúc tổng thể, trong khi các phương pháp đa tạp ưu tiên các vùng lân cận cục bộ.
PCA và các thuật toán tương tự có thể xử lý đến hàng triệu điểm; trong khi đó, t-SNE và UMAP lại gặp khó khăn khi xử lý đến hàng chục nghìn điểm.
Phép chiếu tuyến tính có thể được áp dụng ngay lập tức cho dữ liệu mới, nhưng phép nhúng đa tạp thường không thể.
Học tập đa dạng là gì?
Một nhóm các kỹ thuật phi tuyến tính giúp phát hiện các cấu trúc cong chiều thấp ẩn giấu trong dữ liệu chiều cao.
Học tập đa chiều dựa trên giả thuyết đa chiều, cho rằng dữ liệu đa chiều thực chất nằm trên một bề mặt cong có chiều thấp hơn.
Các thuật toán phổ biến bao gồm Isomap, Locally Linear Embedding (LLE), t-SNE, UMAP và Laplacian Eigenmaps.
Nó nổi trội trong việc bảo tồn các khu vực lân cận, có nghĩa là các điểm lân cận trong không gian đa chiều vẫn giữ được vị trí gần nhau trong biểu diễn thu nhỏ.
Hầu hết các phương pháp đa tạp đều gặp khó khăn với phép chiếu ngoài mẫu, khiến việc ánh xạ các điểm dữ liệu mới trở nên khó khăn nếu không huấn luyện lại.
t-SNE và UMAP được sử dụng rộng rãi để trực quan hóa các tập dữ liệu phức tạp như trình tự RNA đơn bào và nhúng hình ảnh.
Giảm chiều tuyến tính là gì?
Các kỹ thuật chiếu dữ liệu đa chiều xuống các không gian con có chiều thấp hơn bằng cách sử dụng các phép biến đổi tuyến tính.
Phân tích thành phần chính (PCA), phương pháp tuyến tính nổi tiếng nhất, có từ năm 1901 và được phát triển bởi Karl Pearson.
Các phương pháp tuyến tính giả định rằng sự biến thiên dữ liệu được thể hiện tốt nhất dọc theo các trục vuông góc trong không gian đặc trưng ban đầu.
Chúng duy trì cấu trúc toàn cầu, nghĩa là hình dạng tổng thể và khoảng cách giữa các điểm xa nhau được giữ nguyên.
Các kỹ thuật tuyến tính có hiệu quả tính toán cao và khả năng mở rộng tốt đến hàng triệu mẫu.
Ngoài PCA, nhóm phương pháp này còn bao gồm Phân tích phân biệt tuyến tính (LDA), Phân tích nhân tố và Phân tích giá trị riêng bị cắt cụt (Truncated SVD).
Bảng So Sánh
Tính năng
Học tập đa dạng
Giảm chiều tuyến tính
Giả định cốt lõi
Dữ liệu nằm trên một đa tạp cong có chiều thấp
Dữ liệu nằm trên một không gian con tuyến tính phẳng.
Cấu trúc được bảo tồn
Chủ yếu là các khu dân cư địa phương
Chủ yếu là sự biến thiên toàn cầu
Chi phí tính toán
Nói chung là cao hơn, thường là O(n²) hoặc tệ hơn.
Thấp, thường là O(n·d²) hoặc nhanh hơn
Khả năng giải thích
Trục thấp hơn hiếm khi có ý nghĩa trực tiếp.
Các thành phần ở cấp cao hơn thường liên quan đến các đặc điểm ban đầu.
Khả năng mở rộng
Giới hạn, những khó khăn vượt quá hàng chục nghìn điểm.
Tuyệt vời, xử lý được hàng triệu mẫu.
Phép chiếu ngoài mẫu
Khó khăn, đòi hỏi các phương pháp xấp xỉ.
Phương pháp đơn giản thông qua phép nhân ma trận.
Các trường hợp sử dụng tốt nhất
Trực quan hóa, các mẫu phi tuyến tính, dữ liệu hình ảnh và sinh học
Nén đặc trưng, tiền xử lý, giảm nhiễu
Ví dụ về thuật toán
t-SNE, UMAP, Isomap, LLE
PCA, LDA, Phân tích nhân tố, SVD rút gọn
So sánh chi tiết
Các giả định hình học về dữ liệu
Sự khác biệt triết học lớn nhất giữa các phương pháp này nằm ở quan điểm của chúng về hình dạng dữ liệu. Giảm chiều tuyến tính coi dữ liệu đa chiều như thể nó nằm trên một siêu phẳng, nơi các đường thẳng và phép chiếu trực giao nắm bắt được những biến thể quan trọng nhất. Học đa tạp lại có quan điểm ngược lại, cho rằng dữ liệu thực tế thường gấp khúc và uốn lượn trong không gian đa chiều giống như một tờ giấy nhàu nát. Nếu bạn trải phẳng tờ giấy đó ra, bạn sẽ có một bề mặt 2D, và các thuật toán đa tạp cố gắng thực hiện chính xác điều đó về mặt toán học.
Bảo tồn cấu trúc địa phương so với cấu trúc toàn cầu
Các phương pháp tuyến tính như PCA rất giỏi trong việc nắm bắt cấu trúc tổng thể. Chúng đảm bảo rằng các điểm cách xa nhau trong không gian ban đầu vẫn cách xa nhau sau khi chiếu, điều này rất tốt để hiểu sự biến thiên tổng thể nhưng có thể làm mờ các cụm chi tiết. Học đa tạp đảo ngược ưu tiên này, tập trung mạnh vào việc giữ các điểm gần nhau. Đó là lý do tại sao t-SNE và UMAP tạo ra những hình ảnh trực quan ấn tượng, trong đó các cụm nổi bật rõ ràng, ngay cả khi sự sắp xếp tổng thể của các cụm đó có phần tùy ý.
Tính thực tiễn tính toán
Khi tập dữ liệu trở nên lớn, các phương pháp tuyến tính vượt trội hơn hẳn. PCA có thể được tính toán hiệu quả bằng cách sử dụng phân tích giá trị riêng hoặc phân tích giá trị đơn, và các thư viện như scikit-learn xử lý hàng triệu hàng dữ liệu một cách dễ dàng. Ngược lại, các thuật toán đa tạp thường yêu cầu xây dựng đồ thị lân cận, có khả năng mở rộng kém, và t-SNE nói riêng có độ phức tạp bậc hai theo số lượng mẫu. UMAP đã cải thiện phần nào điều này, nhưng cả hai vẫn còn tụt hậu xa so với các phương pháp tuyến tính đối với các quy trình sản xuất quy mô lớn.
Khả năng giải thích và triển khai
Các phương pháp tuyến tính mang lại lợi thế rõ ràng khi bạn cần giải thích ý nghĩa của các chiều giảm. Các thành phần PCA là sự kết hợp có trọng số của các đặc trưng gốc, vì vậy bạn có thể kiểm tra hệ số tải và hiểu biến nào điều khiển từng trục. Các phép nhúng đa tạp nổi tiếng là khó hiểu, với các trục hiếm khi tương ứng với bất cứ điều gì mà con người có thể hiểu được. Ngoài ra, các phương pháp tuyến tính cho phép bạn chiếu các điểm dữ liệu mới ngay lập tức bằng cách sử dụng ma trận biến đổi đã học, trong khi các phương pháp đa tạp thường yêu cầu huấn luyện lại hoặc các phép xấp xỉ phức tạp để xử lý các mẫu mới.
Khi mỗi phương pháp đều tỏa sáng
Giảm chiều tuyến tính vẫn là lựa chọn mặc định cho các quy trình tiền xử lý, nén đặc trưng và các trường hợp cần tốc độ và khả năng giải thích. Học đa tạp phát huy tác dụng khi dữ liệu có cấu trúc phi tuyến tính rõ ràng, ví dụ như hình ảnh, phổ âm thanh hoặc hồ sơ biểu hiện gen, và khi mục tiêu là khám phá hơn là triển khai. Trên thực tế, nhiều nhà khoa học dữ liệu thường chạy PCA trước tiên như một phương pháp cơ sở, sau đó chỉ chuyển sang các phương pháp đa tạp khi phép chiếu tuyến tính không thể tiết lộ các mẫu có ý nghĩa.
Ưu & Nhược điểm
Học tập đa dạng
Ưu điểm
+Nắm bắt các mô hình phi tuyến tính
+Tuyệt vời để trực quan hóa
+Hé lộ các cụm ẩn
+Bảo toàn hình học cục bộ
Đã lưu
−Tốn kém về mặt tính toán
−Khó giải thích
−Lập bản đồ ngoài mẫu kém
−Nhạy cảm với các siêu tham số
Giảm chiều tuyến tính
Ưu điểm
+Nhanh và có khả năng mở rộng
+Dễ hiểu
+Kết quả xác định
+Triển khai đơn giản
Đã lưu
−Thiếu cấu trúc phi tuyến tính
−Chỉ giới hạn ở các hình chiếu phẳng
−Có thể làm mờ các cụm chi tiết nhỏ.
−Giả định phương sai trực giao
Những hiểu lầm phổ biến
Huyền thoại
Học đa tạp luôn cho kết quả tốt hơn PCA vì nó tinh vi hơn.
Thực tế
Sự tinh vi không đồng nghĩa với hiệu suất tốt hơn. PCA thường đạt được hiệu suất tương đương hoặc vượt trội hơn các phương pháp học đa tạp trong các tác vụ như tiền xử lý phân loại hoặc giảm nhiễu. Học đa tạp tỏa sáng trong các trường hợp cụ thể như trực quan hóa, nhưng đối với nhiều tác vụ học máy thực tế, PCA là lựa chọn mạnh mẽ hơn.
Huyền thoại
t-SNE và UMAP bảo toàn cấu trúc tổng thể của dữ liệu.
Thực tế
Cả hai phương pháp đều làm sai lệch khoảng cách toàn cục để nhấn mạnh các vùng lân cận cục bộ. Khoảng cách giữa các cụm trong biểu đồ t-SNE hầu như không mang thông tin có ý nghĩa nào, và chỉ vị trí tương đối của các điểm lân cận mới nên được xem xét.
Huyền thoại
PCA giả định dữ liệu tuân theo phân bố chuẩn.
Thực tế
PCA không yêu cầu phân phối chuẩn. Nó chỉ giả định rằng phương sai là một đại lượng có ý nghĩa cần được bảo toàn và rằng các tổ hợp tuyến tính của các đặc trưng nắm bắt được cấu trúc quan trọng. Nó hoạt động trên nhiều loại phân phối khác nhau, mặc dù dữ liệu có đuôi nặng có thể làm sai lệch kết quả.
Huyền thoại
Sau khi chạy t-SNE, bạn có thể sử dụng kết quả nhúng làm đầu vào cho mô hình tiếp theo.
Thực tế
Việc sử dụng các embedding t-SNE hoặc UMAP làm đặc trưng cho học có giám sát thường không được khuyến khích vì chúng làm sai lệch khoảng cách và làm mất thông tin toàn cục. PCA hoặc các phương pháp tuyến tính khác thường là lựa chọn an toàn hơn cho các quy trình kỹ thuật đặc trưng.
Huyền thoại
Học đa tạp có thể giảm bất kỳ tập dữ liệu nào xuống còn 2D mà không làm mất thông tin.
Thực tế
Mọi phương pháp giảm chiều đều dẫn đến mất mát thông tin. Các phương pháp đa tạp bảo toàn các mối quan hệ cục bộ nhưng hy sinh tính toàn cục, và việc giảm chiều quá mạnh xuống 2D có thể che giấu những biến thể quan trọng ảnh hưởng đến các tác vụ tiếp theo.
Các câu hỏi thường gặp
Điểm khác biệt chính giữa học đa tạp và PCA là gì?
PCA giả định dữ liệu nằm trên một không gian con tuyến tính phẳng và tìm các trục vuông góc có phương sai tối đa. Học đa tạp giả định dữ liệu nằm trên một bề mặt cong và cố gắng "trải phẳng" nó trong khi vẫn bảo toàn các vùng lân cận cục bộ. Sự khác biệt chính nằm ở các giả định tuyến tính so với phi tuyến tính về hình học cơ bản.
Khi nào thì nên sử dụng học đa tạp thay vì PCA?
Hãy sử dụng học đa tạp khi dữ liệu của bạn có cấu trúc phi tuyến rõ ràng mà PCA không thể nắm bắt được, chẳng hạn như hình ảnh, đặc trưng giọng nói hoặc dữ liệu sinh học. Đây cũng là lựa chọn tốt hơn khi mục tiêu của bạn là trực quan hóa và bạn muốn các cụm xuất hiện rõ ràng. Đối với các quy trình tiền xử lý hoặc sản xuất, PCA thường nhanh hơn và thực tế hơn.
t-SNE có phải là một phương pháp học đa tạp không?
Đúng vậy, t-SNE được coi là một kỹ thuật học đa tạp vì nó bảo toàn cấu trúc lân cận cục bộ và tiết lộ các mẫu phi tuyến tính. Tuy nhiên, nó chủ yếu được thiết kế để trực quan hóa hơn là giảm chiều dữ liệu tổng quát, và nó không cung cấp cách để chiếu các điểm dữ liệu mới.
Liệu học đa tạp có thể xử lý các tập dữ liệu lớn?
Các phương pháp đa tạp tiêu chuẩn như t-SNE có khả năng mở rộng kém, với độ phức tạp khoảng O(n²), khiến chúng không thực tế khi xử lý trên khoảng 50.000 điểm. UMAP đã cải thiện đáng kể khả năng mở rộng, và các biến thể gần đúng như FIt-SNE và openTSNE đẩy giới hạn xa hơn, nhưng các phương pháp tuyến tính như PCA vẫn dễ dàng xử lý các tập dữ liệu lớn hơn nhiều.
Tại sao PCA vẫn phổ biến đến vậy nếu học đa tạp (manifold learning) mạnh mẽ hơn?
PCA vẫn được ưa chuộng vì nó nhanh, dễ hiểu, mang tính xác định và dễ triển khai. Giả định tuyến tính của nó thường đủ tốt cho nhiều bài toán thực tế và nó tích hợp gọn gàng vào các quy trình học máy. Học đa tạp mạnh mẽ hơn trong các trường hợp cụ thể nhưng lại tạo ra sự phức tạp không phải lúc nào cũng cần thiết.
Các phương pháp học đa tạp có bảo toàn khoảng cách giữa các điểm không?
Không hẳn vậy. Hầu hết các phương pháp đa tạp đều bảo toàn khoảng cách cục bộ, nghĩa là các điểm gần nhau vẫn ở gần nhau, nhưng khoảng cách toàn cục thường bị bóp méo hoặc vô nghĩa. Đặc biệt, t-SNE nổi tiếng với việc kéo giãn hoặc nén không gian giữa các cụm, vì vậy chỉ nên tin tưởng vào vị trí tương đối của các điểm lân cận.
Giả thuyết đa tạp là gì?
Giả thuyết đa tạp cho rằng dữ liệu đa chiều thường nằm trên hoặc gần một bề mặt cong có chiều thấp hơn nhiều được nhúng trong không gian ban đầu. Ví dụ, một khuôn mặt được dựng hình 3D có thể được mô tả chỉ bằng một vài tham số như góc độ, ánh sáng và biểu cảm, mặc dù biểu diễn pixel có hàng nghìn chiều.
Tôi có thể sử dụng PCA và học đa tạp cùng nhau được không?
Chắc chắn rồi. Một quy trình làm việc phổ biến là trước tiên áp dụng PCA để giảm chiều dữ liệu xuống mức có thể quản lý được, ví dụ như 50 thành phần, sau đó chạy t-SNE hoặc UMAP trên biểu diễn đã được giảm chiều đó. Điều này giúp tăng tốc thuật toán đa tạp và đôi khi có thể giảm nhiễu gây cản trở việc phát hiện vùng lân cận.
UMAP có tốt hơn t-SNE không?
UMAP nhìn chung nhanh hơn t-SNE, có khả năng xử lý tốt hơn các tập dữ liệu lớn và bảo toàn cấu trúc tổng thể tốt hơn. Nó cũng hỗ trợ chiếu các điểm dữ liệu mới lên ma trận nhúng, điều mà t-SNE không làm được. Tuy nhiên, cả hai đều tạo ra các hình ảnh trực quan tương tự trong nhiều trường hợp, và sự lựa chọn thường phụ thuộc vào yêu cầu về tốc độ và sở thích cá nhân.
Liệu các phương pháp tuyến tính có bao giờ được sử dụng để trực quan hóa dữ liệu không?
Đúng vậy, PCA thường được sử dụng để trực quan hóa nhanh chóng dữ liệu 2D hoặc 3D, đặc biệt là làm cơ sở so sánh trước khi thử các phương pháp phi tuyến tính. Các phép chiếu tuyến tính ít ấn tượng về mặt hình ảnh hơn so với t-SNE hoặc UMAP nhưng lại có ưu điểm là dễ hiểu và có thể tái tạo, điều này rất quan trọng trong báo cáo khoa học và kinh doanh.
Phán quyết
Hãy sử dụng phương pháp giảm chiều tuyến tính khi bạn cần tốc độ, khả năng giải thích và dự đoán đáng tin cậy ngoài mẫu, đặc biệt là trong các quy trình học máy sản xuất. Chọn học đa tạp khi mục tiêu của bạn là trực quan hóa mang tính khám phá hoặc khi bạn nghi ngờ có các mối quan hệ phi tuyến tính mạnh mẽ mà PCA đơn giản không thể nắm bắt được. Quy trình làm việc thông minh nhất thường bao gồm việc thử PCA trước và chỉ chuyển sang các phương pháp đa tạp khi phương pháp tuyến tính không đáp ứng được yêu cầu.