trí tuệ nhân tạocảm biến từ xahọc sâuhọc máyquan sát trái đất
Học tự giám sát trong viễn thám so với phân loại có giám sát
Học tự giám sát trong viễn thám huấn luyện các mô hình trên ảnh vệ tinh hoặc ảnh chụp từ trên không chưa được gắn nhãn bằng cách tạo ra các nhiệm vụ giả định, trong khi phân loại có giám sát dựa vào dữ liệu được con người gắn nhãn để dạy các mô hình cách phân loại các điểm ảnh hoặc cảnh. Cả hai phương pháp đều giải quyết việc lập bản đồ lớp phủ đất và phát hiện đối tượng, nhưng chúng khác biệt rõ rệt về yêu cầu dữ liệu, khả năng mở rộng và độ chính xác trong thực tế.
Điểm nổi bật
Học tự giám sát giúp giảm chi phí chú thích bằng cách khai thác các kho lưu trữ vệ tinh chưa được gắn nhãn.
Phân loại có giám sát vẫn dẫn đầu về độ chính xác khi dữ liệu được gán nhãn dồi dào.
Các đặc điểm tự giám sát được chuyển giao đáng tin cậy hơn giữa các vùng và cảm biến.
Các hệ thống xử lý dữ liệu lai kết hợp cả hai phương pháp đang trở thành tiêu chuẩn mới trong quan sát Trái đất.
Học tự giám sát trong viễn thám là gì?
Một mô hình huấn luyện trong đó các mô hình học cách biểu diễn dữ liệu quan sát Trái đất chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ tiền đề trước khi tinh chỉnh trên các ứng dụng tiếp theo.
Nó tận dụng kho lưu trữ khổng lồ các hình ảnh vệ tinh chưa được gắn nhãn, chẳng hạn như Sentinel-2 hoặc Landsat, để huấn luyện trước các mạng nơ-ron sâu.
Các nhiệm vụ giả định phổ biến bao gồm dự đoán xoay ảnh, giải câu đố ghép hình, phân biệt đối tượng tương phản và tự mã hóa che khuất.
Các mô hình như SatMAE, DINO-MC và SeCo đã chứng minh hiệu suất chuyển giao mạnh mẽ trong các nhiệm vụ viễn thám tiếp theo.
Nó giúp giảm đáng kể sự phụ thuộc vào việc chú thích của chuyên gia tốn kém, vốn có thể mất hàng giờ cho mỗi cảnh có độ phân giải cao.
Các đặc trưng tự giám sát thường có khả năng khái quát hóa tốt hơn trên các khu vực địa lý và loại cảm biến khác nhau so với các đặc trưng được giám sát hoàn toàn.
Phân loại có giám sát là gì?
Một phương pháp học máy truyền thống, trong đó các mô hình được huấn luyện trên dữ liệu viễn thám được gắn nhãn thủ công để gán danh mục cho các điểm ảnh, đối tượng hoặc cảnh.
Nó yêu cầu các mẫu huấn luyện được gắn nhãn, trong đó mỗi pixel hoặc mảng ảnh được gắn nhãn với một lớp đã biết, chẳng hạn như rừng, nước hoặc đô thị.
Các thuật toán rất đa dạng, từ các phương pháp cổ điển như Random Forest và SVM đến các kiến trúc mạng sâu như ResNet, U-Net và Vision Transformers.
Độ chính xác phụ thuộc rất nhiều vào chất lượng nhãn, sự cân bằng giữa các lớp và tính đại diện của tập dữ liệu huấn luyện.
Đây vẫn là phương pháp chủ đạo trong các sản phẩm lập bản đồ lớp phủ đất như ESA World Cover và National Land Cover Database.
Hiệu suất thường chững lại khi dữ liệu được gắn nhãn khan hiếm, thiên lệch hoặc không bao gồm các loại dữ liệu hiếm gặp như khu định cư không chính thức hoặc thiệt hại sau thiên tai.
Bảng So Sánh
Tính năng
Học tự giám sát trong viễn thám
Phân loại có giám sát
Dữ liệu được gắn nhãn là bắt buộc
Hầu như không có đào tạo trước đó.
Bộ dữ liệu mở rộng, được chuyên gia chú thích
Khả năng mở rộng trên nhiều khu vực
Cao, chuyển khoản xuyên khu vực địa lý
Giới hạn, thường chỉ áp dụng trong một khu vực nhất định.
Chi phí chú thích
Thấp, sử dụng kho lưu trữ hình ảnh thô.
Dán nhãn thủ công có giá cao.
Độ chính xác hạ lưu
Cạnh tranh với số lượng nhãn hiệu hạn chế.
Đạt mức cao nhất khi có nhiều nhãn dán.
Đào tạo tính toán
Chuẩn bị kỹ lưỡng trước khi thi đấu, điều chỉnh nhẹ nhàng sau đó.
Độ phức tạp trung bình, tỷ lệ thuận với kích thước tập dữ liệu.
Xử lý các lớp hiếm
Tốt hơn, học được các biểu diễn tổng quát.
Yếu hơn, cần mẫu cân bằng
Khả năng giải thích
Các nhiệm vụ cấp thấp hơn, mang tính giả định, mang tính trừu tượng.
Ở cấp độ cao hơn, các quy tắc quyết định có thể được kiểm tra.
Sự trưởng thành trong sản xuất
Đang phát triển, chủ yếu ở giai đoạn nghiên cứu.
Đã hoàn thiện và được triển khai rộng rãi trong thực tế.
So sánh chi tiết
Yêu cầu dữ liệu và nỗ lực chú thích
Phân loại có giám sát phụ thuộc vào các tập dữ liệu được gắn nhãn cẩn thận, trong đó mỗi ví dụ huấn luyện đều mang một nhãn thực tế. Việc tạo ra các nhãn này cho hình ảnh độ phân giải cao thường đòi hỏi chuyên môn về GIS và có thể tốn từ vài xu đến vài đô la cho mỗi đa giác. Học tự giám sát đảo ngược phương trình này bằng cách khai thác hàng petabyte hình ảnh chưa được gắn nhãn, có sẵn miễn phí được thu thập bởi các vệ tinh như Sentinel-2, cho phép các mô hình học được các đặc điểm hữu ích mà không cần bất kỳ sự chú thích nào của con người trong giai đoạn tiền huấn luyện ban đầu.
Khái quát hóa trên nhiều cảm biến và khu vực
Các mô hình được huấn luyện hoàn toàn bằng phương pháp giám sát thường bị quá khớp với các đặc điểm quang phổ và không gian của các cảnh huấn luyện, điều này có nghĩa là một bộ phân loại được huấn luyện trên đất nông nghiệp châu Âu có thể gặp khó khăn khi áp dụng cho rừng nhiệt đới. Ngược lại, các mô hình tự giám sát nắm bắt được các mẫu hình ảnh rộng hơn từ nhiều loại hình ảnh khác nhau, dẫn đến khả năng chuyển giao tốt hơn đáng kể khi được tinh chỉnh trên một tập dữ liệu nhỏ được gắn nhãn từ một khu vực hoặc cảm biến mới. Điều này làm cho các phương pháp tự giám sát trở nên đặc biệt hấp dẫn đối với các nỗ lực lập bản đồ quy mô toàn cầu.
Độ chính xác và hiệu suất chuẩn
Trên các bộ dữ liệu chuẩn như EuroSAT, BigEarthNet và cuộc thi IEEE GRSS Data Fusion Contest, các mô hình học có giám sát vẫn giữ lợi thế nhỏ khi được cung cấp đủ dữ liệu huấn luyện có nhãn. Tuy nhiên, các nghiên cứu từ năm 2022 trở đi liên tục cho thấy rằng việc huấn luyện trước tự giám sát, tiếp theo là thăm dò tuyến tính hoặc tinh chỉnh trên chỉ vài trăm nhãn, có thể sánh ngang hoặc thậm chí vượt trội so với các mô hình học có giám sát hoàn toàn. Khoảng cách này càng thu hẹp hơn nữa khi nhãn bị nhiễu, không cân bằng hoặc chỉ giới hạn ở các lớp hiếm.
Chi phí tính toán và quy trình làm việc
Việc huấn luyện trước tự giám sát rất tốn kém về mặt tính toán, thường yêu cầu nhiều GPU hoạt động trong nhiều ngày trên hàng triệu mảng ảnh. Tuy nhiên, sau khi được huấn luyện trước, mô hình có thể được tái sử dụng cho nhiều tác vụ tiếp theo với lượng huấn luyện bổ sung tối thiểu. Các quy trình có giám sát bỏ qua bước huấn luyện trước tốn kém nhưng phải được huấn luyện lại từ đầu mỗi khi cảm biến, vị trí địa lý hoặc sơ đồ phân loại thay đổi, điều này sẽ làm tăng chi phí theo thời gian đối với các tổ chức quản lý nhiều sản phẩm bản đồ.
Sự sẵn sàng hoạt động và lòng tin
Phân loại có giám sát vẫn là phương pháp chủ lực trong viễn thám thực tiễn vì hành vi của nó được hiểu rõ, các giao thức xác thực được tiêu chuẩn hóa và các khung pháp lý thường yêu cầu dữ liệu huấn luyện có thể truy vết. Các phương pháp tự giám sát vẫn đang trong giai đoạn hoàn thiện, và các nhà thực hành đôi khi ngần ngại triển khai chúng trong các ứng dụng quan trọng như ứng phó thảm họa hoặc giám sát nạn phá rừng mà không có sự đánh giá hiệu năng rộng rãi. Tuy nhiên, các quy trình làm việc kết hợp giữa huấn luyện sơ bộ tự giám sát và tinh chỉnh có giám sát đang nhanh chóng được đón nhận trong cả nghiên cứu và công nghiệp.
Ưu & Nhược điểm
Học tự giám sát trong viễn thám
Ưu điểm
+Chi phí chú thích thấp
+Sự chuyển giao mạnh mẽ giữa các vùng
+Các mạng xương sống được huấn luyện trước có thể tái sử dụng
+Xử lý các lớp hiếm tốt hơn
Đã lưu
−Tính toán tốn nhiều tài nguyên cho quá trình huấn luyện trước.
−Mức độ trưởng thành về mặt vận hành còn thấp.
−Khó giải thích hơn
−Dù sao thì cũng cần nhãn phía hạ lưu.
Phân loại có giám sát
Ưu điểm
+Độ chính xác cao với nhãn
+Trưởng thành và đáng tin cậy
+Dễ hiểu
+Hỗ trợ công cụ rộng rãi
Đã lưu
−Dán nhãn thủ công tốn kém
−Chuyển giao địa lý kém
−Gặp khó khăn với các lớp học hiếm gặp
−Thường xuyên cần đào tạo lại.
Những hiểu lầm phổ biến
Huyền thoại
Học tự giám sát loại bỏ hoàn toàn nhu cầu về dữ liệu được gắn nhãn.
Thực tế
Quá trình huấn luyện sơ bộ tự giám sát loại bỏ nhãn dữ liệu ở giai đoạn ban đầu, nhưng các tác vụ tiếp theo vẫn cần dữ liệu có nhãn để tinh chỉnh hoặc đánh giá. Việc tiết kiệm chi phí đến từ việc cần ít nhãn hơn nhiều, chứ không phải là không cần nhãn nào cả.
Huyền thoại
Phân loại có giám sát đã lỗi thời do sự xuất hiện của các phương pháp tự giám sát.
Thực tế
Phân loại có giám sát vẫn là phương pháp chủ đạo trong các hệ thống vận hành và thường đạt độ chính xác cao nhất khi có nhiều nhãn. Học tự giám sát bổ sung chứ không thay thế cho phân loại có giám sát.
Huyền thoại
Các mô hình tự giám sát luôn cho kết quả tốt hơn các mô hình có giám sát trên các bộ dữ liệu viễn thám.
Thực tế
Hiệu năng phụ thuộc vào tập dữ liệu, lượng dữ liệu được gán nhãn có sẵn và tác vụ tiếp theo. Với các tập dữ liệu được gán nhãn lớn, các mô hình có giám sát vẫn có thể đạt được hoặc vượt trội hơn các mô hình tự giám sát cơ bản.
Huyền thoại
Dữ liệu chưa được gắn nhãn càng nhiều thì các mô hình tự giám sát càng được cải thiện.
Thực tế
Chất lượng và sự đa dạng quan trọng hơn khối lượng dữ liệu thô. Các mô hình tự giám sát có thể bị chững lại hoặc thậm chí suy giảm hiệu suất khi được cung cấp hình ảnh dư thừa hoặc chất lượng thấp mà không có đủ sự đa dạng về mùa vụ, cảm biến hoặc khu vực địa lý.
Huyền thoại
Các thuật toán phân loại có giám sát không thể khái quát hóa vượt ra ngoài vùng huấn luyện của chúng.
Thực tế
Với thiết kế cẩn thận, thích ứng miền và các mẫu huấn luyện đa dạng, các bộ phân loại có giám sát có thể khái quát hóa trên nhiều khu vực. Hạn chế này là có thật nhưng không tuyệt đối, và các kỹ thuật học chuyển giao giúp thu hẹp khoảng cách này.
Các câu hỏi thường gặp
Học tự giám sát trong viễn thám là gì?
Học tự giám sát trong viễn thám là một chiến lược huấn luyện trong đó các mô hình học sâu học được các biểu diễn hữu ích từ một lượng lớn ảnh vệ tinh hoặc ảnh chụp từ trên không chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ tiền đề như dự đoán xoay, tái tạo các mảng bị che khuất hoặc phân biệt các trường hợp ảnh. Sau khi huấn luyện sơ bộ, mô hình được tinh chỉnh trên một tập dữ liệu được gắn nhãn nhỏ hơn cho các nhiệm vụ như phân loại lớp phủ đất hoặc phát hiện thay đổi.
Phân loại có giám sát hoạt động như thế nào trong viễn thám?
Phân loại có giám sát huấn luyện một mô hình trên ảnh mà mỗi pixel hoặc vùng ảnh đã được gán nhãn thủ công với một lớp như rừng, nước hoặc đô thị. Mô hình học các mẫu thống kê liên quan đến mỗi lớp và sau đó dự đoán nhãn cho các ảnh mới, chưa được nhìn thấy. Các thuật toán phổ biến bao gồm Rừng ngẫu nhiên, Máy vectơ hỗ trợ và mạng nơ-ron tích chập.
Phương pháp nào tốt hơn khi dữ liệu được gán nhãn có hạn?
Học tự giám sát thường là lựa chọn tốt hơn khi dữ liệu được gán nhãn khan hiếm. Bằng cách huấn luyện trước trên lượng lớn hình ảnh chưa được gán nhãn, mô hình xây dựng các biểu diễn đặc trưng phong phú, chỉ cần một tập dữ liệu được gán nhãn nhỏ để tinh chỉnh, thường đạt được độ chính xác tương đương với các mô hình được giám sát hoàn toàn được huấn luyện trên các tập dữ liệu lớn hơn nhiều.
Liệu phương pháp tự giám sát và phương pháp giám sát có thể kết hợp với nhau không?
Đúng vậy, và quy trình làm việc kết hợp này ngày càng phổ biến. Mô hình được huấn luyện trước với mục tiêu tự giám sát trên ảnh chưa được gắn nhãn, sau đó được tinh chỉnh bằng học có giám sát trên tập dữ liệu đã được gắn nhãn cho một nhiệm vụ cụ thể. Sự kết hợp này thường mang lại những ưu điểm tốt nhất của cả hai phương pháp: khả năng khái quát hóa mạnh mẽ cộng với độ chính xác cao đối với nhiệm vụ cụ thể.
Các mô hình tự giám sát phổ biến dành cho ảnh vệ tinh là gì?
Các ví dụ nổi bật bao gồm SatMAE cho mã hóa tự động có mặt nạ của ảnh Sentinel-2, DINO và DINO-MC cho học tập tương phản, SeCo cho tương phản theo mùa, và khung SSL4EO được Cơ quan Vũ trụ Châu Âu phát triển cho quan sát Trái đất. Những mô hình này đóng vai trò là nền tảng cốt lõi cho nhiều ứng dụng viễn thám tiếp theo.
Phân loại có giám sát cần bao nhiêu dữ liệu được gán nhãn?
Số lượng mẫu cần thiết thay đổi tùy thuộc vào độ phức tạp của nhiệm vụ và loại mô hình. Các thuật toán cổ điển như Random Forest có thể hoạt động với vài trăm mẫu được gán nhãn cho mỗi lớp, trong khi các mô hình học sâu thường cần hàng nghìn mẫu. Các nhiệm vụ phân đoạn ngữ nghĩa độ phân giải cao có thể yêu cầu hàng chục nghìn pixel được chú thích để đạt được độ chính xác đáng tin cậy.
Liệu học tự giám sát có tốn nhiều tài nguyên tính toán hơn so với huấn luyện có giám sát?
Huấn luyện trước tự giám sát tốn nhiều tài nguyên tính toán hơn đáng kể vì nó xử lý hàng triệu hình ảnh chưa được gắn nhãn và sử dụng kích thước lô lớn với các hàm mất mát tương phản hoặc tái tạo. Tuy nhiên, bước tinh chỉnh tiếp theo thường rẻ hơn so với việc huấn luyện một mô hình có giám sát từ đầu, do đó tổng chi phí có thể thấp hơn khi mô hình được huấn luyện trước được sử dụng lại cho nhiều tác vụ khác nhau.
Phương pháp nào được sử dụng trong lập bản đồ lớp phủ đất thực tiễn?
Hầu hết các sản phẩm dữ liệu về lớp phủ đất đang được sử dụng, chẳng hạn như ESA World Cover, Copernicus Global Land Service và National Land Cover Database, đều dựa vào các quy trình phân loại có giám sát, thường kết hợp học sâu với dữ liệu huấn luyện được gắn nhãn rộng rãi. Các phương pháp tự giám sát đang bắt đầu xuất hiện trong các nguyên mẫu nghiên cứu và một vài sản phẩm thương mại nhưng vẫn chưa thay thế được các quy trình có giám sát trên quy mô lớn.
Liệu học tự giám sát có hiệu quả với ảnh đa phổ hoặc siêu phổ không?
Đúng vậy, các khung tự giám sát hiện đại như SSL4EO-ML và SatMAE được thiết kế để xử lý các dải phổ đa quang Sentinel-2, và các nhà nghiên cứu đã mở rộng các phương pháp mã hóa tự động có mặt nạ cho các cảm biến siêu phổ. Mấu chốt là điều chỉnh nhiệm vụ tiền đề để tôn trọng cấu trúc quang phổ thay vì coi các dải phổ là các kênh RGB độc lập.
Những thách thức chính của học tự giám sát trong viễn thám là gì?
Những thách thức chính bao gồm chi phí tính toán cao của quá trình huấn luyện trước, khó khăn trong việc thiết kế các nhiệm vụ tiền đề nắm bắt được các mô hình quan sát Trái đất có ý nghĩa, nhu cầu về các tập dữ liệu chưa được gắn nhãn lớn và đa dạng, và sự hạn chế về các tiêu chuẩn đánh giá được chuẩn hóa để đánh giá các mô hình tự giám sát trong các nhiệm vụ chuyên biệt như lập bản đồ cây trồng hoặc phát hiện lũ lụt.
Phán quyết
Hãy chọn phân loại có giám sát khi bạn có nhiều dữ liệu được gán nhãn chất lượng cao và cần một mô hình hoàn thiện, dễ hiểu cho một vùng hoặc cảm biến được xác định rõ. Chọn học tự giám sát khi nhãn khan hiếm, đắt đỏ hoặc bị giới hạn về mặt địa lý, và bạn muốn một mô hình nền tảng linh hoạt có thể thích ứng với nhiều tác vụ tiếp theo với nỗ lực chú thích tối thiểu.