trí tuệ nhân tạohọc sâuthị giác máy tínhmáy biến ápCNNmạng nơ-ron

So sánh mô hình thị giác dựa trên Transformer với mạng nơ-ron tích chập.

Các mô hình thị giác dựa trên Transformer và mạng nơ-ron tích chập (CNN) đại diện cho hai cách tiếp cận hoàn toàn khác nhau trong việc dạy máy móc nhìn nhận thế giới. Transformer dựa vào cơ chế tự chú ý để nắm bắt các mối quan hệ tổng thể trong một hình ảnh, trong khi CNN sử dụng các bộ lọc phân cấp để phát hiện các mẫu cục bộ. Mỗi kiến trúc đều mang lại những thế mạnh riêng biệt cho các nhiệm vụ thị giác máy tính.

Điểm nổi bật

Transformer nắm bắt các mối quan hệ hình ảnh toàn cục từ lớp đầu tiên, trong khi CNN xây dựng sự hiểu biết theo thứ bậc.
Mạng nơ-ron tích chập (CNN) huấn luyện hiệu quả trên các tập dữ liệu nhỏ hơn nhờ vào thiên kiến quy nạp vốn có.
Cơ chế chú ý của Transformer có tỷ lệ thuận với bình phương độ phân giải, giúp mạng CNN hoạt động hiệu quả hơn đối với hình ảnh có độ phân giải cao.
Các kiến trúc lai kết hợp cả hai phương pháp thường mang lại hiệu suất thực tế tốt nhất.

Mô hình thị giác dựa trên Transformer là gì?

Các mô hình học sâu áp dụng cơ chế tự chú ý để xử lý hình ảnh dưới dạng chuỗi các mảng nhỏ, nắm bắt các mối quan hệ phụ thuộc tầm xa trên toàn bộ trường thị giác.

Vision Transformer (ViT), được các nhà nghiên cứu của Google giới thiệu vào cuối năm 2020, là mô hình đầu tiên chứng minh rằng các mô hình transformer thuần túy có thể đạt được hoặc vượt qua hiệu suất của CNN trong phân loại hình ảnh.
ViT chia hình ảnh thành các mảng có kích thước cố định, thường là 16x16 pixel, và chiếu chúng theo đường thẳng trước khi đưa vào bộ mã hóa biến đổi tiêu chuẩn.
Các mô hình thị giác dựa trên Transformer thường yêu cầu các tập dữ liệu khổng lồ, thường là hàng trăm triệu hình ảnh, để vượt trội hơn các phương pháp tích chập trong giai đoạn huấn luyện trước.
Khả năng tự chú ý cho phép mọi mảng (patch) tương tác trực tiếp với mọi mảng khác, tạo cho bộ chuyển đổi (transformer) một trường tiếp nhận toàn cục ngay từ lớp đầu tiên.
Các biến thể như Swin Transformer giới thiệu khả năng xử lý phân cấp với các cửa sổ dịch chuyển, giúp các bộ chuyển đổi hoạt động hiệu quả hơn trong các tác vụ dự đoán phức tạp như phát hiện và phân đoạn đối tượng.

Mạng nơ-ron tích chập là gì?

Các kiến trúc học sâu xử lý hình ảnh thông qua các lớp bộ lọc tích chập, dần dần trích xuất các đặc điểm từ các cạnh đơn giản đến các đối tượng phức tạp.

Năm 1998, Yann LeCun đã phát triển LeNet, mạng nơ-ron tích chập (CNN) thực tiễn đầu tiên, để nhận dạng chữ số viết tay cho các ứng dụng ngân hàng.
Mạng CNN áp dụng cùng một bộ lọc đã học được cho toàn bộ hình ảnh, khai thác tính chất bất biến tịnh tiến và giảm đáng kể số lượng tham số cần thiết.
Các kiến trúc như ResNet, được giới thiệu vào năm 2015, cho phép các mạng nơ-ron mở rộng vượt quá 100 lớp bằng cách sử dụng các kết nối bỏ qua để khắc phục hiện tượng suy giảm độ dốc.
Mạng tích chập được hưởng lợi từ các thiên kiến quy nạp mạnh mẽ, bao gồm tính cục bộ và tính bất biến dịch chuyển, điều này làm cho chúng rất hiệu quả về mặt dữ liệu đối với nhiều tác vụ thị giác.
Các mạng CNN hiện đại như ConvNeXt đã được thiết kế lại để đạt hiệu suất tương đương với Transformer trong khi vẫn giữ được lợi thế về hiệu quả của các phép toán tích chập.

Bảng So Sánh

Tính năng	Mô hình thị giác dựa trên Transformer	Mạng nơ-ron tích chập
Cơ chế cốt lõi	Sự tự chú ý trên các mảng hình ảnh	Bộ lọc tích chập trên các chiều không gian
Trường tiếp nhận	Toàn cầu từ lớp đầu tiên	Mang tính cục bộ và phân cấp, mở rộng theo chiều sâu.
Thiên kiến quy nạp	Ít giả định ngầm định về hình ảnh	Tính cục bộ mạnh và tính tương đương tịnh tiến
Yêu cầu dữ liệu	Thông thường cần các tập dữ liệu huấn luyện trước quy mô lớn.	Hoạt động tốt ngay cả với các tập dữ liệu nhỏ.
Chi phí tính toán	Tỷ lệ bậc hai với độ phân giải hình ảnh	Tỷ lệ tuyến tính với độ phân giải hình ảnh
Khả năng giải thích	Bản đồ sự chú ý hé lộ các mối quan hệ toàn cầu	Bản đồ đặc trưng hiển thị phát hiện mẫu phân cấp
Các trường hợp sử dụng tốt nhất	Huấn luyện trước quy mô lớn, các nhiệm vụ đa phương thức, phát hiện	Triển khai trên thiết bị di động, hình ảnh y tế, suy luận thời gian thực
Các kiến trúc chính	ViT, Máy biến áp Swin, DeiT, BEiT	ResNet, EfficientNet, ConvNeXt, MobileNet
Luyện tập sự ổn định	Có thể nhạy cảm nếu không được khởi tạo cẩn thận.	Nhìn chung ổn định với các công thức huấn luyện tiêu chuẩn.
Năm đột phá	2020 (Bài báo Vision Transformer)	2012 (AlexNet) và 2015 (ResNet)

So sánh chi tiết

Cách họ xử lý hình ảnh

Sự khác biệt cơ bản nằm ở cách mỗi kiến trúc "nhìn" một hình ảnh. Transformer chia hình ảnh thành một lưới các mảng nhỏ và sau đó sử dụng cơ chế tự chú ý để cho phép mỗi mảng nhỏ giao tiếp với mọi mảng nhỏ khác cùng một lúc. CNN lại áp dụng cách tiếp cận ngược lại, trượt các bộ lọc nhỏ trên hình ảnh để phát hiện các cạnh, kết cấu và hình dạng theo hướng từ dưới lên. Điều này có nghĩa là Transformer nắm bắt toàn bộ hình ảnh cùng một lúc, trong khi CNN xây dựng sự hiểu biết từng lớp một.

Hiệu quả dữ liệu và đào tạo

Mạng nơ-ron tích chập (CNN) có lợi thế rõ rệt khi dữ liệu huấn luyện hạn chế. Các giả định vốn có của chúng về cách thức hoạt động của hình ảnh, chẳng hạn như ý tưởng rằng các pixel gần nhau có mối liên hệ chặt chẽ hơn các pixel xa nhau, đóng vai trò như những lối tắt hữu ích trong quá trình học. Ngược lại, mạng Transformer, thiếu những định kiến sẵn có này, thường cần phải xử lý hàng triệu hoặc thậm chí hàng trăm triệu hình ảnh được gắn nhãn trước khi chúng có thể vượt trội hơn một mạng CNN được tinh chỉnh tốt. Tuy nhiên, một khi đã được huấn luyện trước trên các tập dữ liệu khổng lồ, mạng Transformer thường chuyển giao tốt hơn cho các tác vụ tiếp theo.

Yêu cầu tính toán

Cơ chế tự chú ý (self-attention) có hiệu năng tăng theo bình phương số lượng các mảng ảnh, nghĩa là việc tăng gấp đôi độ phân giải hình ảnh sẽ làm tăng gấp bốn lần lượng tính toán cần thiết. Mạng nơ-ron tích chập (CNN) có khả năng mở rộng tốt hơn nhiều vì các phép toán tích chập có chi phí cố định bất kể kích thước hình ảnh. Điều này làm cho CNN trở thành lựa chọn hàng đầu cho các môi trường hạn chế tài nguyên như ứng dụng di động và thiết bị biên, trong khi Transformer thường phát huy hiệu quả tốt nhất trong các môi trường có sẵn cụm GPU.

Hiệu năng trên các bài kiểm tra hiệu năng hiện đại

Trên các bộ dữ liệu chuẩn như ImageNet, cả hai kiến trúc hiện đều đạt độ chính xác hàng đầu. Các mô hình lai kết hợp các nhánh tích chập với các khối transformer, chẳng hạn như CoAtNet, đã chứng minh rằng việc kết hợp hai triết lý này thường mang lại kết quả tốt nhất. Đối với các tác vụ dự đoán mật độ cao như phát hiện và phân đoạn đối tượng, các transformer phân cấp như Swin đã thu hẹp đáng kể khoảng cách với CNN đồng thời cung cấp các khả năng mới để xử lý đầu vào độ phân giải cao.

Khả năng giải thích và gỡ lỗi

Cả hai kiến trúc đều cung cấp các công cụ trực quan hóa, nhưng chúng tiết lộ những điều khác nhau. Bản đồ chú ý trong Transformer cho thấy các vùng ảnh nào được mô hình coi là quan trọng so với nhau, mang lại cái nhìn toàn diện hơn. Mặt khác, bản đồ đặc trưng của CNN giúp dễ dàng thấy được cách mạng lưới dần dần phát hiện các cạnh, hình dạng và cuối cùng là toàn bộ đối tượng. Người dùng thường thấy CNN dễ gỡ lỗi hơn vì bản chất phân cấp của chúng phản ánh cách chúng ta mô tả trực quan về nhận dạng hình ảnh.

Áp dụng trong ngành và hệ sinh thái

Mạng nơ-ron tích chập (CNN) có lợi thế rất lớn trong việc triển khai sản phẩm, với các khung phần mềm được tối ưu hóa và hỗ trợ phần cứng đã có từ hơn một thập kỷ trước. Mạng Transformer đang nhanh chóng bắt kịp, đặc biệt là trong các ứng dụng nghiên cứu chuyên sâu và các hệ thống đa phương thức kết hợp thị giác với ngôn ngữ. Nhiều công ty hiện đang sử dụng các phương pháp lai, tận dụng CNN để trích xuất đặc trưng và Transformer cho suy luận cấp cao hơn.

Ưu & Nhược điểm

Mô hình thị giác dựa trên Transformer

Ưu điểm

+ Trường tiếp nhận toàn cầu
+ Khả năng chuyển giao kiến thức xuất sắc
+ Khả năng đa phương thức mạnh mẽ
+ Khả năng mở rộng tốt với dữ liệu
+ Kiến trúc linh hoạt

Đã lưu

− Yêu cầu dữ liệu cao
− Chi phí tính toán bậc hai
− Ít có thể giải thích được ở cấp độ địa phương
− Việc đào tạo từ đầu sẽ khó khăn hơn.

Mạng nơ-ron tích chập

Ưu điểm

+ Đào tạo hiệu quả dữ liệu
+ Tốc độ suy luận nhanh
+ Thiên kiến quy nạp mạnh
+ Hệ sinh thái trưởng thành
+ Hoạt động trên các thiết bị biên

Đã lưu

− Bối cảnh toàn cầu hạn chế
− Khó mở rộng quy mô đối với các tập dữ liệu khổng lồ.
− Kiến trúc kém linh hoạt hơn
− Xử lý phân cấp tuần tự

Những hiểu lầm phổ biến

Huyền thoại

Transformer đã hoàn toàn thay thế mạng nơ-ron tích chập (CNN) trong lĩnh vực thị giác máy tính.

Thực tế

Thông tin này không chính xác. Mặc dù các mô hình Transformer đã thu hút được sự chú ý rất lớn, nhưng mạng nơ-ron tích chập (CNN) vẫn được sử dụng rộng rãi trong các hệ thống sản xuất, đặc biệt là cho triển khai trên thiết bị di động và thiết bị biên. Nhiều mô hình tiên tiến hiện nay thực chất kết hợp các lớp tích chập với các khối Transformer để tận dụng tối đa ưu điểm của cả hai.

Huyền thoại

Mạng nơ-ron tích chập (CNN) là công nghệ lỗi thời.

Thực tế

Hoàn toàn không phải vậy. Các thiết kế CNN hiện đại như ConvNeXt được thiết kế đặc biệt để sánh ngang hiệu năng của Transformer trong khi vẫn duy trì hiệu quả của mạng tích chập. CNN tiếp tục chiếm ưu thế trong các trường hợp bị hạn chế về khả năng tính toán, bộ nhớ hoặc dữ liệu huấn luyện.

Huyền thoại

Transformer luôn vượt trội hơn CNN trong mọi tác vụ xử lý hình ảnh.

Thực tế

Transformer thường thắng thế trong các bài kiểm tra quy mô lớn với dữ liệu huấn luyện dồi dào, nhưng CNN thường sánh ngang hoặc vượt trội hơn chúng trong các tập dữ liệu nhỏ hơn và các tác vụ như xử lý hình ảnh y tế, nơi dữ liệu khan hiếm. Kiến trúc "tốt nhất" phụ thuộc rất nhiều vào vấn đề và các ràng buộc cụ thể.

Huyền thoại

Khả năng tự chú ý giúp các bộ chuyển đổi hình ảnh (transformer) vốn dĩ hiểu hình ảnh tốt hơn.

Thực tế

Cơ chế tự chú ý (self-attention) giúp Transformer có cái nhìn tổng quát, nhưng điều đó không tự động dẫn đến khả năng hiểu tốt hơn. Mạng nơ-ron tích chập (CNN) mã hóa những thông tin hữu ích về hình ảnh tự nhiên mà Transformer phải học từ dữ liệu, đó là lý do tại sao Transformer cần nhiều dữ liệu huấn luyện hơn để đạt được hiệu suất tương đương.

Huyền thoại

Bộ chuyển đổi hình ảnh không thể được sử dụng cho các ứng dụng thời gian thực.

Thực tế

Trong khi các ViT tiêu chuẩn tốn nhiều tài nguyên tính toán, các biến thể hiệu quả hơn như Swin Transformer, EfficientFormer và MobileViT được thiết kế đặc biệt cho việc sử dụng thời gian thực và trên thiết bị di động. Họ kiến trúc này đa dạng hơn nhiều so với những gì mọi người thường nghĩ.

Các câu hỏi thường gặp

Điểm khác biệt chính giữa Vision Transformer và CNN là gì?

Sự khác biệt cốt lõi nằm ở cách chúng xử lý thông tin hình ảnh. Vision Transformer sử dụng cơ chế tự chú ý để cho phép mọi phần của hình ảnh tương tác trực tiếp với mọi phần khác, nắm bắt các mối quan hệ tổng thể ngay từ đầu. CNN sử dụng các bộ lọc tích chập trượt trên hình ảnh, phát hiện các mẫu cục bộ trước tiên và xây dựng sự hiểu biết tổng thể thông qua các lớp sâu hơn.

Kiến trúc nào tốt hơn cho các tập dữ liệu nhỏ?

Mạng nơ-ron tích chập (CNN) thường hoạt động tốt hơn khi dữ liệu huấn luyện hạn chế. Các thiên kiến quy nạp tích hợp sẵn của chúng, chẳng hạn như giả định rằng các pixel lân cận có liên quan với nhau, đóng vai trò như những thông tin tiên nghiệm hữu ích giúp giảm lượng dữ liệu cần thiết để học. Trong khi đó, mạng Transformer thường cần hàng trăm nghìn hoặc hàng triệu hình ảnh để phát huy tối đa hiệu quả.

Liệu các mô hình chuyển đổi hình ảnh (vision transformers) có yêu cầu nhiều tài nguyên tính toán hơn so với mạng nơ-ron tích chập (CNN) không?

Đúng vậy, trong hầu hết các trường hợp, chi phí tính toán cao hơn đáng kể. Các thao tác tự chú ý (self-attention operations) có hiệu suất tăng theo bình phương số lượng các mảng ảnh, nghĩa là chi phí tính toán tăng nhanh khi độ phân giải ảnh tăng lên. Mạng nơ-ron tích chập (CNN) có hiệu suất tăng tuyến tính với độ phân giải, do đó chúng hiệu quả hơn nhiều đối với ảnh có độ phân giải cao và môi trường hạn chế tài nguyên.

Liệu mạng nơ-ron tích chập (CNN) và mô hình Transformer có thể kết hợp với nhau được không?

Hoàn toàn đúng vậy, và các mô hình lai đang ngày càng phổ biến. Các kiến trúc như CoAtNet, BoTNet và ConvNeXt kết hợp các lớp tích chập với cơ chế chú ý. Những mô hình lai này thường hoạt động tốt hơn các phiên bản thuần túy của từng kiến trúc bằng cách kết hợp hiệu quả của các phép tích chập với khả năng suy luận toàn cục của cơ chế chú ý.

Tôi nên sử dụng kiến trúc nào cho việc phát hiện đối tượng?

Cả hai đều hoạt động tốt trong việc phát hiện đối tượng, nhưng sự lựa chọn phụ thuộc vào các ràng buộc của bạn. Các bộ chuyển đổi phân cấp như Swin Transformer hiện là xương sống phổ biến cho các khung phát hiện như Mask R-CNN và DETR. Xương sống CNN như ResNet vẫn phổ biến khi tốc độ và hiệu quả quan trọng hơn việc tối đa hóa độ chính xác.

Liệu việc huấn luyện các mô hình chuyển đổi hình ảnh (vision transformers) có khó hơn so với mạng nơ-ron tích chập (CNN) không?

Điều đó hoàn toàn có thể xảy ra. Nếu không có các thành phần định hướng mạnh mẽ, các mô hình Transformer sẽ nhạy cảm hơn với tốc độ học, khởi tạo và các lựa chọn tăng cường dữ liệu. Các kỹ thuật như điều chỉnh tỷ lệ lớp, khởi động cẩn thận và tăng cường dữ liệu mở rộng thường là cần thiết. Các mô hình CNN có xu hướng huấn luyện đáng tin cậy hơn với các công thức tiêu chuẩn.

Bài báo đột phá nào đã tạo nên công nghệ chuyển đổi hình ảnh?

Bài báo mang tính bước ngoặt là "Một hình ảnh đáng giá 16x16 từ", được Dosovitskiy và các đồng nghiệp tại Google Research công bố vào cuối năm 2020. Bài báo này chứng minh rằng một mô hình transformer thuần túy được áp dụng cho các mảng ảnh có thể đạt được kết quả tiên tiến nhất trên ImageNet khi được huấn luyện trước trên các tập dữ liệu lớn như JFT-300M.

Kiến trúc nào tốt hơn cho hình ảnh y tế?

Mạng nơ-ron tích chập (CNN) thường được ưu tiên sử dụng trong hình ảnh y tế vì tập dữ liệu thường nhỏ hơn và chi phí lỗi cao. Hiệu quả xử lý dữ liệu và khả năng diễn giải của chúng khiến chúng rất phù hợp với môi trường lâm sàng. Tuy nhiên, mạng Transformer đang ngày càng được quan tâm trong nghiên cứu, đặc biệt là đối với các tác vụ liên quan đến quét thể tích 3D, nơi ngữ cảnh toàn cục rất quan trọng.

Liệu máy biến áp (transformers) cuối cùng sẽ thay thế hoàn toàn mạng nơ-ron tích chập (CNN) không?

Hầu hết các chuyên gia cho rằng việc thay thế hoàn toàn là không khả thi. Mỗi kiến trúc đều có những ưu điểm riêng, và xu hướng hiện nay là hướng tới các thiết kế lai kết hợp cả hai. Mạng nơ-ron tích chập (CNN) có thể sẽ vẫn chiếm ưu thế trong các ứng dụng đòi hỏi hiệu suất cao, trong khi các mô-đun biến áp (Transformer) sẽ tiếp tục thúc đẩy sự phát triển trong nghiên cứu và các hệ thống quy mô lớn.

Tôi nên chọn giữa Vision Transformer và CNN cho dự án của mình như thế nào?

Hãy bắt đầu bằng cách xem xét kích thước tập dữ liệu, ngân sách tính toán và môi trường triển khai của bạn. Nếu bạn có dữ liệu hạn chế hoặc cần chạy trên thiết bị di động, mạng nơ-ron tích chập (CNN) có lẽ là lựa chọn an toàn hơn. Nếu bạn có quyền truy cập vào các tập dữ liệu lớn và GPU mạnh mẽ, và nhiệm vụ của bạn được hưởng lợi từ khả năng suy luận toàn cục, hãy thử mô hình chuyển đổi thị giác (Vision Transformer). So sánh hiệu năng của cả hai trên tập dữ liệu cụ thể của bạn luôn là cách tiếp cận tốt nhất.

Phán quyết

Hãy chọn các mô hình thị giác dựa trên Transformer khi bạn có quyền truy cập vào các tập dữ liệu lớn, tài nguyên tính toán dồi dào và các tác vụ được hưởng lợi từ ngữ cảnh toàn cục, chẳng hạn như trí tuệ nhân tạo đa phương thức hoặc phát hiện độ phân giải cao. Hãy sử dụng mạng nơ-ron tích chập khi dữ liệu hạn chế, độ trễ là vấn đề quan trọng hoặc bạn cần triển khai trên các thiết bị biên. Trên thực tế, nhiều hệ thống thành công kết hợp cả hai kiến trúc để tận dụng thế mạnh của mỗi kiến trúc.

So sánh liên quan

AI hỗ trợ tìm kiếm so với huấn luyện chỉ dựa trên tập dữ liệu

Trí tuệ nhân tạo được tăng cường bằng tìm kiếm sẽ lấy thông tin trực tiếp từ các nguồn bên ngoài tại thời điểm truy vấn, trong khi huấn luyện chỉ dựa trên tập dữ liệu lại hoàn toàn dựa vào kiến thức được tích hợp vào trọng số của mô hình trong quá trình huấn luyện. Mỗi phương pháp đều có những đánh đổi riêng về độ chính xác, chi phí, tính cập nhật và khả năng xử lý các câu hỏi nằm ngoài phạm vi huấn luyện ban đầu.

AI mã nguồn mở so với AI độc quyền

Bài so sánh này khám phá những điểm khác biệt chính giữa AI mã nguồn mở và AI độc quyền, bao gồm khả năng tiếp cận, tùy chỉnh, chi phí, hỗ trợ, bảo mật, hiệu suất và các trường hợp sử dụng thực tế, giúp các tổ chức và nhà phát triển quyết định phương pháp nào phù hợp với mục tiêu và năng lực kỹ thuật của họ.

AI so với Tự động hóa

Sự so sánh này giải thích những điểm khác biệt chính giữa trí tuệ nhân tạo và tự động hóa, tập trung vào cách chúng hoạt động, những vấn đề chúng giải quyết, tính thích ứng, độ phức tạp, chi phí và các trường hợp ứng dụng thực tế trong kinh doanh.

AI trên thiết bị so với AI trên đám mây

Sự so sánh này khám phá sự khác biệt giữa AI trên thiết bị và AI đám mây, tập trung vào cách chúng xử lý dữ liệu, tác động đến quyền riêng tư, hiệu suất, khả năng mở rộng, và các trường hợp sử dụng điển hình cho tương tác thời gian thực, mô hình quy mô lớn, cũng như yêu cầu kết nối trong các ứng dụng hiện đại.

Bạn đồng hành AI so với tình bạn giữa con người

Những người bạn đồng hành AI là các hệ thống kỹ thuật số được thiết kế để mô phỏng cuộc trò chuyện, hỗ trợ cảm xúc và sự hiện diện, trong khi tình bạn giữa người với người được xây dựng trên kinh nghiệm sống chung, sự tin tưởng và sự tương hỗ về mặt cảm xúc. Bài so sánh này khám phá cách cả hai hình thức kết nối này định hình giao tiếp, hỗ trợ cảm xúc, sự cô đơn và hành vi xã hội trong một thế giới ngày càng số hóa.