trí tuệ nhân tạocảm biến từ xahọc sâuhọc máyquan sát trái đất

Học tự giám sát trong viễn thám so với phân loại có giám sát

Học tự giám sát trong viễn thám huấn luyện các mô hình trên ảnh vệ tinh hoặc ảnh chụp từ trên không chưa được gắn nhãn bằng cách tạo ra các nhiệm vụ giả định, trong khi phân loại có giám sát dựa vào dữ liệu được con người gắn nhãn để dạy các mô hình cách phân loại các điểm ảnh hoặc cảnh. Cả hai phương pháp đều giải quyết việc lập bản đồ lớp phủ đất và phát hiện đối tượng, nhưng chúng khác biệt rõ rệt về yêu cầu dữ liệu, khả năng mở rộng và độ chính xác trong thực tế.

Điểm nổi bật

Học tự giám sát giúp giảm chi phí chú thích bằng cách khai thác các kho lưu trữ vệ tinh chưa được gắn nhãn.
Phân loại có giám sát vẫn dẫn đầu về độ chính xác khi dữ liệu được gán nhãn dồi dào.
Các đặc điểm tự giám sát được chuyển giao đáng tin cậy hơn giữa các vùng và cảm biến.
Các hệ thống xử lý dữ liệu lai kết hợp cả hai phương pháp đang trở thành tiêu chuẩn mới trong quan sát Trái đất.

Học tự giám sát trong viễn thám là gì?

Một mô hình huấn luyện trong đó các mô hình học cách biểu diễn dữ liệu quan sát Trái đất chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ tiền đề trước khi tinh chỉnh trên các ứng dụng tiếp theo.

Nó tận dụng kho lưu trữ khổng lồ các hình ảnh vệ tinh chưa được gắn nhãn, chẳng hạn như Sentinel-2 hoặc Landsat, để huấn luyện trước các mạng nơ-ron sâu.
Các nhiệm vụ giả định phổ biến bao gồm dự đoán xoay ảnh, giải câu đố ghép hình, phân biệt đối tượng tương phản và tự mã hóa che khuất.
Các mô hình như SatMAE, DINO-MC và SeCo đã chứng minh hiệu suất chuyển giao mạnh mẽ trong các nhiệm vụ viễn thám tiếp theo.
Nó giúp giảm đáng kể sự phụ thuộc vào việc chú thích của chuyên gia tốn kém, vốn có thể mất hàng giờ cho mỗi cảnh có độ phân giải cao.
Các đặc trưng tự giám sát thường có khả năng khái quát hóa tốt hơn trên các khu vực địa lý và loại cảm biến khác nhau so với các đặc trưng được giám sát hoàn toàn.

Phân loại có giám sát là gì?

Một phương pháp học máy truyền thống, trong đó các mô hình được huấn luyện trên dữ liệu viễn thám được gắn nhãn thủ công để gán danh mục cho các điểm ảnh, đối tượng hoặc cảnh.

Nó yêu cầu các mẫu huấn luyện được gắn nhãn, trong đó mỗi pixel hoặc mảng ảnh được gắn nhãn với một lớp đã biết, chẳng hạn như rừng, nước hoặc đô thị.
Các thuật toán rất đa dạng, từ các phương pháp cổ điển như Random Forest và SVM đến các kiến trúc mạng sâu như ResNet, U-Net và Vision Transformers.
Độ chính xác phụ thuộc rất nhiều vào chất lượng nhãn, sự cân bằng giữa các lớp và tính đại diện của tập dữ liệu huấn luyện.
Đây vẫn là phương pháp chủ đạo trong các sản phẩm lập bản đồ lớp phủ đất như ESA World Cover và National Land Cover Database.
Hiệu suất thường chững lại khi dữ liệu được gắn nhãn khan hiếm, thiên lệch hoặc không bao gồm các loại dữ liệu hiếm gặp như khu định cư không chính thức hoặc thiệt hại sau thiên tai.

Bảng So Sánh

Tính năng	Học tự giám sát trong viễn thám	Phân loại có giám sát
Dữ liệu được gắn nhãn là bắt buộc	Hầu như không có đào tạo trước đó.	Bộ dữ liệu mở rộng, được chuyên gia chú thích
Khả năng mở rộng trên nhiều khu vực	Cao, chuyển khoản xuyên khu vực địa lý	Giới hạn, thường chỉ áp dụng trong một khu vực nhất định.
Chi phí chú thích	Thấp, sử dụng kho lưu trữ hình ảnh thô.	Dán nhãn thủ công có giá cao.
Độ chính xác hạ lưu	Cạnh tranh với số lượng nhãn hiệu hạn chế.	Đạt mức cao nhất khi có nhiều nhãn dán.
Đào tạo tính toán	Chuẩn bị kỹ lưỡng trước khi thi đấu, điều chỉnh nhẹ nhàng sau đó.	Độ phức tạp trung bình, tỷ lệ thuận với kích thước tập dữ liệu.
Xử lý các lớp hiếm	Tốt hơn, học được các biểu diễn tổng quát.	Yếu hơn, cần mẫu cân bằng
Khả năng giải thích	Các nhiệm vụ cấp thấp hơn, mang tính giả định, mang tính trừu tượng.	Ở cấp độ cao hơn, các quy tắc quyết định có thể được kiểm tra.
Sự trưởng thành trong sản xuất	Đang phát triển, chủ yếu ở giai đoạn nghiên cứu.	Đã hoàn thiện và được triển khai rộng rãi trong thực tế.

So sánh chi tiết

Yêu cầu dữ liệu và nỗ lực chú thích

Phân loại có giám sát phụ thuộc vào các tập dữ liệu được gắn nhãn cẩn thận, trong đó mỗi ví dụ huấn luyện đều mang một nhãn thực tế. Việc tạo ra các nhãn này cho hình ảnh độ phân giải cao thường đòi hỏi chuyên môn về GIS và có thể tốn từ vài xu đến vài đô la cho mỗi đa giác. Học tự giám sát đảo ngược phương trình này bằng cách khai thác hàng petabyte hình ảnh chưa được gắn nhãn, có sẵn miễn phí được thu thập bởi các vệ tinh như Sentinel-2, cho phép các mô hình học được các đặc điểm hữu ích mà không cần bất kỳ sự chú thích nào của con người trong giai đoạn tiền huấn luyện ban đầu.

Khái quát hóa trên nhiều cảm biến và khu vực

Các mô hình được huấn luyện hoàn toàn bằng phương pháp giám sát thường bị quá khớp với các đặc điểm quang phổ và không gian của các cảnh huấn luyện, điều này có nghĩa là một bộ phân loại được huấn luyện trên đất nông nghiệp châu Âu có thể gặp khó khăn khi áp dụng cho rừng nhiệt đới. Ngược lại, các mô hình tự giám sát nắm bắt được các mẫu hình ảnh rộng hơn từ nhiều loại hình ảnh khác nhau, dẫn đến khả năng chuyển giao tốt hơn đáng kể khi được tinh chỉnh trên một tập dữ liệu nhỏ được gắn nhãn từ một khu vực hoặc cảm biến mới. Điều này làm cho các phương pháp tự giám sát trở nên đặc biệt hấp dẫn đối với các nỗ lực lập bản đồ quy mô toàn cầu.

Độ chính xác và hiệu suất chuẩn

Trên các bộ dữ liệu chuẩn như EuroSAT, BigEarthNet và cuộc thi IEEE GRSS Data Fusion Contest, các mô hình học có giám sát vẫn giữ lợi thế nhỏ khi được cung cấp đủ dữ liệu huấn luyện có nhãn. Tuy nhiên, các nghiên cứu từ năm 2022 trở đi liên tục cho thấy rằng việc huấn luyện trước tự giám sát, tiếp theo là thăm dò tuyến tính hoặc tinh chỉnh trên chỉ vài trăm nhãn, có thể sánh ngang hoặc thậm chí vượt trội so với các mô hình học có giám sát hoàn toàn. Khoảng cách này càng thu hẹp hơn nữa khi nhãn bị nhiễu, không cân bằng hoặc chỉ giới hạn ở các lớp hiếm.

Chi phí tính toán và quy trình làm việc

Việc huấn luyện trước tự giám sát rất tốn kém về mặt tính toán, thường yêu cầu nhiều GPU hoạt động trong nhiều ngày trên hàng triệu mảng ảnh. Tuy nhiên, sau khi được huấn luyện trước, mô hình có thể được tái sử dụng cho nhiều tác vụ tiếp theo với lượng huấn luyện bổ sung tối thiểu. Các quy trình có giám sát bỏ qua bước huấn luyện trước tốn kém nhưng phải được huấn luyện lại từ đầu mỗi khi cảm biến, vị trí địa lý hoặc sơ đồ phân loại thay đổi, điều này sẽ làm tăng chi phí theo thời gian đối với các tổ chức quản lý nhiều sản phẩm bản đồ.

Sự sẵn sàng hoạt động và lòng tin

Phân loại có giám sát vẫn là phương pháp chủ lực trong viễn thám thực tiễn vì hành vi của nó được hiểu rõ, các giao thức xác thực được tiêu chuẩn hóa và các khung pháp lý thường yêu cầu dữ liệu huấn luyện có thể truy vết. Các phương pháp tự giám sát vẫn đang trong giai đoạn hoàn thiện, và các nhà thực hành đôi khi ngần ngại triển khai chúng trong các ứng dụng quan trọng như ứng phó thảm họa hoặc giám sát nạn phá rừng mà không có sự đánh giá hiệu năng rộng rãi. Tuy nhiên, các quy trình làm việc kết hợp giữa huấn luyện sơ bộ tự giám sát và tinh chỉnh có giám sát đang nhanh chóng được đón nhận trong cả nghiên cứu và công nghiệp.

Ưu & Nhược điểm

Học tự giám sát trong viễn thám

Ưu điểm

+ Chi phí chú thích thấp
+ Sự chuyển giao mạnh mẽ giữa các vùng
+ Các mạng xương sống được huấn luyện trước có thể tái sử dụng
+ Xử lý các lớp hiếm tốt hơn

Đã lưu

− Tính toán tốn nhiều tài nguyên cho quá trình huấn luyện trước.
− Mức độ trưởng thành về mặt vận hành còn thấp.
− Khó giải thích hơn
− Dù sao thì cũng cần nhãn phía hạ lưu.

Phân loại có giám sát

Ưu điểm

+ Độ chính xác cao với nhãn
+ Trưởng thành và đáng tin cậy
+ Dễ hiểu
+ Hỗ trợ công cụ rộng rãi

Đã lưu

− Dán nhãn thủ công tốn kém
− Chuyển giao địa lý kém
− Gặp khó khăn với các lớp học hiếm gặp
− Thường xuyên cần đào tạo lại.

Những hiểu lầm phổ biến

Huyền thoại

Học tự giám sát loại bỏ hoàn toàn nhu cầu về dữ liệu được gắn nhãn.

Thực tế

Quá trình huấn luyện sơ bộ tự giám sát loại bỏ nhãn dữ liệu ở giai đoạn ban đầu, nhưng các tác vụ tiếp theo vẫn cần dữ liệu có nhãn để tinh chỉnh hoặc đánh giá. Việc tiết kiệm chi phí đến từ việc cần ít nhãn hơn nhiều, chứ không phải là không cần nhãn nào cả.

Huyền thoại

Phân loại có giám sát đã lỗi thời do sự xuất hiện của các phương pháp tự giám sát.

Thực tế

Phân loại có giám sát vẫn là phương pháp chủ đạo trong các hệ thống vận hành và thường đạt độ chính xác cao nhất khi có nhiều nhãn. Học tự giám sát bổ sung chứ không thay thế cho phân loại có giám sát.

Huyền thoại

Các mô hình tự giám sát luôn cho kết quả tốt hơn các mô hình có giám sát trên các bộ dữ liệu viễn thám.

Thực tế

Hiệu năng phụ thuộc vào tập dữ liệu, lượng dữ liệu được gán nhãn có sẵn và tác vụ tiếp theo. Với các tập dữ liệu được gán nhãn lớn, các mô hình có giám sát vẫn có thể đạt được hoặc vượt trội hơn các mô hình tự giám sát cơ bản.

Huyền thoại

Dữ liệu chưa được gắn nhãn càng nhiều thì các mô hình tự giám sát càng được cải thiện.

Thực tế

Chất lượng và sự đa dạng quan trọng hơn khối lượng dữ liệu thô. Các mô hình tự giám sát có thể bị chững lại hoặc thậm chí suy giảm hiệu suất khi được cung cấp hình ảnh dư thừa hoặc chất lượng thấp mà không có đủ sự đa dạng về mùa vụ, cảm biến hoặc khu vực địa lý.

Huyền thoại

Các thuật toán phân loại có giám sát không thể khái quát hóa vượt ra ngoài vùng huấn luyện của chúng.

Thực tế

Với thiết kế cẩn thận, thích ứng miền và các mẫu huấn luyện đa dạng, các bộ phân loại có giám sát có thể khái quát hóa trên nhiều khu vực. Hạn chế này là có thật nhưng không tuyệt đối, và các kỹ thuật học chuyển giao giúp thu hẹp khoảng cách này.

Các câu hỏi thường gặp

Học tự giám sát trong viễn thám là gì?

Học tự giám sát trong viễn thám là một chiến lược huấn luyện trong đó các mô hình học sâu học được các biểu diễn hữu ích từ một lượng lớn ảnh vệ tinh hoặc ảnh chụp từ trên không chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ tiền đề như dự đoán xoay, tái tạo các mảng bị che khuất hoặc phân biệt các trường hợp ảnh. Sau khi huấn luyện sơ bộ, mô hình được tinh chỉnh trên một tập dữ liệu được gắn nhãn nhỏ hơn cho các nhiệm vụ như phân loại lớp phủ đất hoặc phát hiện thay đổi.

Phân loại có giám sát hoạt động như thế nào trong viễn thám?

Phân loại có giám sát huấn luyện một mô hình trên ảnh mà mỗi pixel hoặc vùng ảnh đã được gán nhãn thủ công với một lớp như rừng, nước hoặc đô thị. Mô hình học các mẫu thống kê liên quan đến mỗi lớp và sau đó dự đoán nhãn cho các ảnh mới, chưa được nhìn thấy. Các thuật toán phổ biến bao gồm Rừng ngẫu nhiên, Máy vectơ hỗ trợ và mạng nơ-ron tích chập.

Phương pháp nào tốt hơn khi dữ liệu được gán nhãn có hạn?

Học tự giám sát thường là lựa chọn tốt hơn khi dữ liệu được gán nhãn khan hiếm. Bằng cách huấn luyện trước trên lượng lớn hình ảnh chưa được gán nhãn, mô hình xây dựng các biểu diễn đặc trưng phong phú, chỉ cần một tập dữ liệu được gán nhãn nhỏ để tinh chỉnh, thường đạt được độ chính xác tương đương với các mô hình được giám sát hoàn toàn được huấn luyện trên các tập dữ liệu lớn hơn nhiều.

Liệu phương pháp tự giám sát và phương pháp giám sát có thể kết hợp với nhau không?

Đúng vậy, và quy trình làm việc kết hợp này ngày càng phổ biến. Mô hình được huấn luyện trước với mục tiêu tự giám sát trên ảnh chưa được gắn nhãn, sau đó được tinh chỉnh bằng học có giám sát trên tập dữ liệu đã được gắn nhãn cho một nhiệm vụ cụ thể. Sự kết hợp này thường mang lại những ưu điểm tốt nhất của cả hai phương pháp: khả năng khái quát hóa mạnh mẽ cộng với độ chính xác cao đối với nhiệm vụ cụ thể.

Các mô hình tự giám sát phổ biến dành cho ảnh vệ tinh là gì?

Các ví dụ nổi bật bao gồm SatMAE cho mã hóa tự động có mặt nạ của ảnh Sentinel-2, DINO và DINO-MC cho học tập tương phản, SeCo cho tương phản theo mùa, và khung SSL4EO được Cơ quan Vũ trụ Châu Âu phát triển cho quan sát Trái đất. Những mô hình này đóng vai trò là nền tảng cốt lõi cho nhiều ứng dụng viễn thám tiếp theo.

Phân loại có giám sát cần bao nhiêu dữ liệu được gán nhãn?

Số lượng mẫu cần thiết thay đổi tùy thuộc vào độ phức tạp của nhiệm vụ và loại mô hình. Các thuật toán cổ điển như Random Forest có thể hoạt động với vài trăm mẫu được gán nhãn cho mỗi lớp, trong khi các mô hình học sâu thường cần hàng nghìn mẫu. Các nhiệm vụ phân đoạn ngữ nghĩa độ phân giải cao có thể yêu cầu hàng chục nghìn pixel được chú thích để đạt được độ chính xác đáng tin cậy.

Liệu học tự giám sát có tốn nhiều tài nguyên tính toán hơn so với huấn luyện có giám sát?

Huấn luyện trước tự giám sát tốn nhiều tài nguyên tính toán hơn đáng kể vì nó xử lý hàng triệu hình ảnh chưa được gắn nhãn và sử dụng kích thước lô lớn với các hàm mất mát tương phản hoặc tái tạo. Tuy nhiên, bước tinh chỉnh tiếp theo thường rẻ hơn so với việc huấn luyện một mô hình có giám sát từ đầu, do đó tổng chi phí có thể thấp hơn khi mô hình được huấn luyện trước được sử dụng lại cho nhiều tác vụ khác nhau.

Phương pháp nào được sử dụng trong lập bản đồ lớp phủ đất thực tiễn?

Hầu hết các sản phẩm dữ liệu về lớp phủ đất đang được sử dụng, chẳng hạn như ESA World Cover, Copernicus Global Land Service và National Land Cover Database, đều dựa vào các quy trình phân loại có giám sát, thường kết hợp học sâu với dữ liệu huấn luyện được gắn nhãn rộng rãi. Các phương pháp tự giám sát đang bắt đầu xuất hiện trong các nguyên mẫu nghiên cứu và một vài sản phẩm thương mại nhưng vẫn chưa thay thế được các quy trình có giám sát trên quy mô lớn.

Liệu học tự giám sát có hiệu quả với ảnh đa phổ hoặc siêu phổ không?

Đúng vậy, các khung tự giám sát hiện đại như SSL4EO-ML và SatMAE được thiết kế để xử lý các dải phổ đa quang Sentinel-2, và các nhà nghiên cứu đã mở rộng các phương pháp mã hóa tự động có mặt nạ cho các cảm biến siêu phổ. Mấu chốt là điều chỉnh nhiệm vụ tiền đề để tôn trọng cấu trúc quang phổ thay vì coi các dải phổ là các kênh RGB độc lập.

Những thách thức chính của học tự giám sát trong viễn thám là gì?

Những thách thức chính bao gồm chi phí tính toán cao của quá trình huấn luyện trước, khó khăn trong việc thiết kế các nhiệm vụ tiền đề nắm bắt được các mô hình quan sát Trái đất có ý nghĩa, nhu cầu về các tập dữ liệu chưa được gắn nhãn lớn và đa dạng, và sự hạn chế về các tiêu chuẩn đánh giá được chuẩn hóa để đánh giá các mô hình tự giám sát trong các nhiệm vụ chuyên biệt như lập bản đồ cây trồng hoặc phát hiện lũ lụt.

Phán quyết

Hãy chọn phân loại có giám sát khi bạn có nhiều dữ liệu được gán nhãn chất lượng cao và cần một mô hình hoàn thiện, dễ hiểu cho một vùng hoặc cảm biến được xác định rõ. Chọn học tự giám sát khi nhãn khan hiếm, đắt đỏ hoặc bị giới hạn về mặt địa lý, và bạn muốn một mô hình nền tảng linh hoạt có thể thích ứng với nhiều tác vụ tiếp theo với nỗ lực chú thích tối thiểu.

So sánh liên quan

AI hỗ trợ tìm kiếm so với huấn luyện chỉ dựa trên tập dữ liệu

Trí tuệ nhân tạo được tăng cường bằng tìm kiếm sẽ lấy thông tin trực tiếp từ các nguồn bên ngoài tại thời điểm truy vấn, trong khi huấn luyện chỉ dựa trên tập dữ liệu lại hoàn toàn dựa vào kiến thức được tích hợp vào trọng số của mô hình trong quá trình huấn luyện. Mỗi phương pháp đều có những đánh đổi riêng về độ chính xác, chi phí, tính cập nhật và khả năng xử lý các câu hỏi nằm ngoài phạm vi huấn luyện ban đầu.

AI mã nguồn mở so với AI độc quyền

Bài so sánh này khám phá những điểm khác biệt chính giữa AI mã nguồn mở và AI độc quyền, bao gồm khả năng tiếp cận, tùy chỉnh, chi phí, hỗ trợ, bảo mật, hiệu suất và các trường hợp sử dụng thực tế, giúp các tổ chức và nhà phát triển quyết định phương pháp nào phù hợp với mục tiêu và năng lực kỹ thuật của họ.

AI so với Tự động hóa

Sự so sánh này giải thích những điểm khác biệt chính giữa trí tuệ nhân tạo và tự động hóa, tập trung vào cách chúng hoạt động, những vấn đề chúng giải quyết, tính thích ứng, độ phức tạp, chi phí và các trường hợp ứng dụng thực tế trong kinh doanh.

AI trên thiết bị so với AI trên đám mây

Sự so sánh này khám phá sự khác biệt giữa AI trên thiết bị và AI đám mây, tập trung vào cách chúng xử lý dữ liệu, tác động đến quyền riêng tư, hiệu suất, khả năng mở rộng, và các trường hợp sử dụng điển hình cho tương tác thời gian thực, mô hình quy mô lớn, cũng như yêu cầu kết nối trong các ứng dụng hiện đại.

Bạn đồng hành AI so với tình bạn giữa con người

Những người bạn đồng hành AI là các hệ thống kỹ thuật số được thiết kế để mô phỏng cuộc trò chuyện, hỗ trợ cảm xúc và sự hiện diện, trong khi tình bạn giữa người với người được xây dựng trên kinh nghiệm sống chung, sự tin tưởng và sự tương hỗ về mặt cảm xúc. Bài so sánh này khám phá cách cả hai hình thức kết nối này định hình giao tiếp, hỗ trợ cảm xúc, sự cô đơn và hành vi xã hội trong một thế giới ngày càng số hóa.