Modele transformatorów a architektury oparte na sieciach CNN
Modele transformatorowe i architektury oparte na sieciach neuronowych (CNN) reprezentują dwa dominujące podejścia w uczeniu głębokim, z których każde wyróżnia się w innych dziedzinach. Sieci transformatorowe wykorzystują samouważność do wychwytywania relacji globalnych, podczas gdy sieci neuronowe (CNN) wykorzystują filtry splotowe do efektywnego wykrywania lokalnych wzorców przestrzennych.
Najważniejsze informacje
Transformatory przechwytują globalny kontekst z pierwszej warstwy, podczas gdy sieci CNN budują zrozumienie poprzez hierarchie cech od lokalnych do globalnych.
Sieci CNN pozostają wydajniejsze pod względem parametrów i szybsze w przypadku zadań wizyjnych o wysokiej rozdzielczości na sprzęcie brzegowym.
Transformatory dominują w zadaniach językowych i stają się coraz bardziej konkurencyjne w zakresie wizji po wstępnym szkoleniu na dużą skalę.
Architektury hybrydowe, łączące warstwy konwolucyjne z uwagą, są obecnie powszechne w najnowocześniejszych modelach.
Czym jest Modele transformatorów?
Architektury głębokiego uczenia się wykorzystują mechanizmy samouwagi do przetwarzania danych sekwencyjnych i kontekstowych w różnych modalnościach.
Wprowadzono je w artykule z 2017 r. pt. „Attention Is All You Need” autorstwa Vaswaniego i współpracowników z Google Brain.
Głównym mechanizmem jest samouwaga, która oblicza relacje pomiędzy wszystkimi tokenami w sekwencji jednocześnie.
Obsługuje duże modele językowe, takie jak GPT-4, BERT i Llama, a także transformatory wizji, takie jak ViT.
Skutecznie skaluje się w przypadku ogromnych zbiorów danych i liczb parametrów, często zawierających miliardy parametrów.
Wymaga znacznych zasobów obliczeniowych do przeprowadzenia szkolenia, zazwyczaj wykorzystując równolegle procesory GPU lub TPU.
Czym jest Architektury oparte na CNN?
Sieci neuronowe stosujące filtry splotowe do danych wejściowych w celu wyodrębnienia hierarchicznych cech przestrzennych służących do rozpoznawania wzorców.
Zainspirowane korą wzrokową, a pierwsze koncepcje sięgają czasów Neocognitronu w Fukushimie z 1980 r.
LeNet-5 (1998) autorstwa Yanna LeCuna był pierwszą siecią CNN, która z powodzeniem zastosowała ją do rozpoznawania pisma ręcznego.
Projekt AlexNet (2012) udowodnił dominującą rolę sieci CNN w sieci ImageNet, zapoczątkowując współczesną rewolucję w dziedzinie głębokiego uczenia się.
Wykorzystuje współdzielenie wagi i łączność lokalną, dzięki czemu jest bardziej wydajny pod względem parametrów w porównaniu do sieci w pełni połączonych.
Nadal stanowi podstawę wielu zadań związanych z wizją w czasie rzeczywistym, jak wykrywanie obiektów i obrazowanie medyczne.
Tabela porównawcza
Funkcja
Modele transformatorów
Architektury oparte na CNN
Mechanizm rdzenia
Samodzielna uwaga na wszystkich stanowiskach
Filtry splotowe w regionach lokalnych
Rok wprowadzenia
2017
Lata 80. (Neocognitron), 1998 (LeNet-5)
Pole recepcyjne
Globalny od pierwszej warstwy
Lokalny, rozszerzający się z głębią
Efektywność danych
Potrzebne są duże zbiory danych, aby zabłysnąć
Dobrze radzi sobie z umiarkowanymi danymi
Koszt obliczeniowy
Złożoność kwadratowa z długością sekwencji
Liniowy z rozmiarem wejściowym
Domeny podstawowe
NLP, wizja, sztuczna inteligencja multimodalna
Wizja komputerowa, obrazowanie medyczne
Interpretowalność
Mapy uwagi dają pewien wgląd
Mapy cech wizualizują nauczone filtry
Odchylenie indukcyjne
Minimalne wbudowane założenia
Silna lokalność i niezmienność translacji
Skalowalność
Skaluje się zadziwiająco dobrze z parametrami
Malejące zyski powyżej pewnej wielkości
Szczegółowe porównanie
Filozofia architektury
Transformatory odchodzą od założeń sekwencyjnej lub przestrzennej lokalności wbudowanych we wcześniejsze architektury, pozwalając modelowi uczyć się, które relacje mają znaczenie, poprzez uwagę. Sieci neuronowe (CNN) stosują odwrotne podejście, wpisując lokalność na stałe w projekt za pomocą przesuwnych filtrów, które naturalnie wychwytują pobliskie wzorce. Ten filozoficzny podział kształtuje wszystko, co dzieje się dalej, od ilości danych treningowych, których potrzebuje każdy model, po łatwość ich generalizacji do nowych zadań.
Wydajność w różnych domenach
W przetwarzaniu języka naturalnego, transformatory zasadniczo zastąpiły wcześniejsze podejścia, ustanawiając najnowocześniejsze wyniki w testach porównawczych, takich jak GLUE i SuperGLUE. Sieci neuronowe (CNN) nadal dominują w wielu procesach przetwarzania obrazu komputerowego, zwłaszcza gdy liczy się szybkość wnioskowania, choć transformatory wizyjne (ViT) zniwelowały lukę w zakresie dokładności. W przypadku zadań obejmujących zarówno obrazy, jak i tekst, coraz powszechniejsze stają się modele hybrydowe i czyste transformatory.
Wymagania obliczeniowe
Samouwaga skaluje się kwadratowo wraz z długością sekwencji, co oznacza, że transformator przetwarzający dane wejściowe w postaci tokenów o rozmiarze 4 tys. wykonuje około 16 razy więcej pracy niż ten przetwarzający tokeny o rozmiarze 1 tys. Sieci neuronowe (CNN) skalują się liniowo wraz z wymiarami wejściowymi, co czyni je znacznie bardziej wydajnymi w przypadku obrazów o wysokiej rozdzielczości lub wideo w czasie rzeczywistym. Z drugiej strony, transformatory doskonale paralelizują się na procesorach graficznych, podczas gdy bardzo głębokie sieci CNN mogą napotykać wąskie gardła pamięci podczas propagacji wstecznej.
Dynamika danych i szkoleń
Transformatory są znane z tego, że wymagają ogromnych ilości danych i często wymagają milionów przykładów, zanim ich elastyczność się opłaci, choć modele wstępnie wytrenowane, takie jak BERT, zmieniły to równanie dzięki uczeniu transferowemu. Sieci neuronowe (CNN) mogą osiągać dobre wyniki przy mniejszych zbiorach danych dzięki wbudowanym obciążeniom indukcyjnym, dlatego wciąż cieszą się popularnością w dziedzinach takich jak obrazowanie medyczne, gdzie dane z etykietami są rzadkością. Obie technologie w ogromnym stopniu korzystają z wstępnego trenowania, ale droga do działającego modelu jest zazwyczaj krótsza w przypadku sieci CNN w systemach z małą ilością danych.
Praktyczne wdrożenie
przypadku urządzeń brzegowych i aplikacji mobilnych sieci neuronowe (CNN) nadal wygrywają pod względem wydajności, a architektury takie jak MobileNet i EfficientNet są zoptymalizowane pod kątem wnioskowania o niskim poborze mocy. Transformatory nadrabiają zaległości dzięki takim technikom jak destylacja wiedzy, kwantyzacja i warianty efektywnej uwagi, takie jak Linformer i Performer. W systemach chmurowych, gdzie dokładność jest priorytetem, transformatory często uzasadniają wyższy koszt obliczeniowy.
Zalety i wady
Modele transformatorów
Zalety
+Przechwytuje zależności dalekiego zasięgu
+Wysoce paralelizowalne szkolenie
+Doskonała nauka transferu
+Elastyczność multimodalna
Zawartość
−Koszt obliczeń kwadratowych
−Szkolenie wymagające dużej ilości danych
−Wysokie zużycie pamięci
−Trudniejsze do zinterpretowania
Architektury oparte na CNN
Zalety
+Wydajny obliczeniowo
+Silne odchylenia indukcyjne
+Działa z mniejszą ilością danych
+Dojrzałe narzędzia optymalizacyjne
Zawartość
−Ograniczony kontekst globalny
−Trudniej skalować
−Mniejsza elastyczność w różnych domenach
−Stała rozdzielczość wejściowa
Częste nieporozumienia
Mit
Transformery całkowicie zastąpiły sieci CNN w dziedzinie przetwarzania obrazu komputerowego.
Rzeczywistość
Sieci neuronowe (CNN) są nadal szeroko stosowane w produkcyjnych systemach wizyjnych, szczególnie w aplikacjach czasu rzeczywistego i mobilnych. Transformatory dorównują lub przewyższają dokładność sieci CNN w testach porównawczych, ale kompromisy w zakresie wydajności sprawiają, że modele splotowe są istotne w wielu scenariuszach wdrożeniowych.
Mit
Sieci CNN nie są w stanie uchwycić zależności dalekiego zasięgu.
Rzeczywistość
Chociaż poszczególne warstwy splotowe mają lokalne pola recepcyjne, ułożenie wielu warstw i zastosowanie splotów rozszerzonych znacząco rozszerza efektywne pole recepcyjne. Współczesne sieci neuronowe (CNN) mogą modelować relacje w dużych obszarach obrazu, choć transformatory czynią to bardziej bezpośrednim.
Mit
Transformatory nie mają polaryzacji indukcyjnej.
Rzeczywistość
Transformatory mają słabsze obciążenia indukcyjne niż sieci CNN, ale nie są wolne od obciążeń. Kodowanie pozycyjne, schematy tokenizacji i rozwiązania architektoniczne, takie jak maskowanie przyczynowe, wprowadzają do modelu założenia dotyczące struktury danych.
Mit
Większe modele transformatorów są zawsze lepsze.
Rzeczywistość
Prawa skalowania pokazują, że wydajność rośnie wraz z rozmiarem, ale zwroty maleją, a mniejsze modele często przewyższają większe w określonych zadaniach po dostrojeniu. Koszty obliczeniowe, opóźnienia i ograniczenia wdrożeniowe często sprawiają, że mniejsze modele są praktycznym wyborem.
Mit
Sieci CNN to przestarzała technologia.
Rzeczywistość
Sieci neuronowe CNN stale ewoluują dzięki innowacjom, takim jak sploty separowalne w głąb, wyszukiwanie architektury neuronowej oraz nowoczesne rozwiązania, takie jak ConvNeXt, które dorównują wydajnością transformatorom. Nadal stanowią fundament wielu najnowocześniejszych systemów.
Często zadawane pytania
Jaka jest główna różnica między transformatorami a sieciami CNN?
Podstawowa różnica tkwi w sposobie przetwarzania informacji przez każdą architekturę. Transformatory wykorzystują samouważność, aby powiązać każdy element wejściowy z każdym innym elementem jednocześnie, rejestrując globalny kontekst od samego początku. Sieci neuronowe stosują wyuczone filtry w lokalnych obszarach, budując zrozumienie szerszych wzorców dopiero w miarę przepływu danych przez głębsze warstwy.
Czy transformatory są lepsze niż sieci CNN do klasyfikacji obrazów?
W dużych testach porównawczych, takich jak ImageNet, transformatory wizji mogą dorównywać lub przewyższać najlepsze sieci neuronowe (CNN), ale dopiero po wstępnym wytrenowaniu na setkach milionów obrazów. W przypadku mniejszych zbiorów danych lub ograniczonej mocy obliczeniowej sieci CNN, takie jak ResNet i EfficientNet, często osiągają lepsze wyniki od razu po instalacji dzięki pomocnym, wbudowanym założeniom dotyczącym struktury obrazu.
Dlaczego w przypadku zadań NLP preferowane są transformatory?
Język z natury wiąże się z zależnościami dalekiego zasięgu, gdzie słowo na początku akapitu może wpływać na znaczenie wielu zdań później. Samouwaga obsługuje te powiązania bezpośrednio, podczas gdy sieci neuronowe (RNN) i sieci neuronowe (CNN) muszą propagować informacje przez wiele warstw lub kroków czasowych. Ten bezpośredni dostęp do kontekstu jest powodem, dla którego modele takie jak GPT i BERT zrewolucjonizowały przetwarzanie języka naturalnego (NLP).
Czy można łączyć sieci CNN i transformatory?
Tak, modele hybrydowe cieszą się coraz większą popularnością. Warstwy splotowe mogą wstępnie przetwarzać obrazy do postaci łatek dla transformatorów, a do szkieletów sieci CNN można dodać mechanizmy uwagi, aby uchwycić kontekst globalny. Modele takie jak DETR do wykrywania obiektów i ConvNeXt pokazują, że połączenie obu podejść często daje najlepsze rezultaty.
Która architektura jest szybsza w przypadku wnioskowania?
Sieci neuronowe (CNN) są generalnie szybsze w wnioskowaniu, szczególnie na urządzeniach brzegowych i procesorach graficznych zoptymalizowanych pod kątem operacji splotowych. Transformatory wymagają więcej pamięci i mocy obliczeniowej na krok wnioskowania ze względu na obliczenia wymagające uwagi, chociaż zoptymalizowane implementacje i wydajne warianty z uwzględnieniem uwagi niwelują tę lukę.
Czy transformatory wymagają więcej danych treningowych niż sieci CNN?
Zazwyczaj tak. Transformatory mają mniej wbudowanych założeń dotyczących struktury danych, więc potrzebują więcej przykładów, aby nauczyć się wzorców, które sieci neuronowe CNN wychwytują niemal automatycznie. Właśnie dlatego transfer uczenia z wstępnie wytrenowanych transformatorów stał się tak ważny – kompensuje on ich głód danych, wykorzystując wiedzę z ogromnych, wstępnie wytrenowanych korpusów.
Jakie są wydajne warianty transformatorów?
Naukowcy opracowali wiele wariantów obniżających koszty obliczeń transformatorowych, w tym Linformer (uwaga liniowa), Performer (uwaga losowa), Longformer (uwaga przesuwnego okna) i Reformer (hashowanie wrażliwe na lokalność). Podejścia te oferują pewną dokładność kosztem znacznego wzrostu wydajności w przypadku długich sekwencji.
Jaką architekturę powinienem zastosować w obrazowaniu medycznym?
Sieci neuronowe (CNN) pozostają dominującym wyborem w obrazowaniu medycznym ze względu na ograniczone zbiory danych z etykietami i potrzebę interpretowalnych map cech. Jednak transformatory wizyjne i modele hybrydowe zyskują na popularności, szczególnie w zadaniach takich jak segmentacja guzów, gdzie istotne jest uchwycenie kontekstu tkankowego w dużym zakresie. Wiele ostatnich publikacji przedstawia konkurencyjne wyniki z podejściami opartymi na transformatorach.
Jak transformery radzą sobie z obrazami, jeśli zostały zaprojektowane do wyświetlania tekstu?
Transformatory wizyjne dzielą obrazy na fragmenty o stałym rozmiarze (zazwyczaj 16x16 pikseli), spłaszczają każdy fragment do wektora i traktują je jak tokeny w zdaniu. Wyuczone osadzanie pozycyjne zachowuje informacje przestrzenne, a standardowy enkoder transformatorowy przetwarza sekwencję. Ta prosta adaptacja okazała się niezwykle skuteczna.
Czy transformatory kiedyś całkowicie zastąpią sieci CNN?
Prawdopodobnie nie w najbliższej przyszłości. Każda architektura ma mocne strony dostosowane do różnych ograniczeń, a trend w badaniach zmierza w kierunku projektów hybrydowych, łączących wydajność splotową z elastycznością uwagi. Przyszłość prawdopodobnie należy do modeli, które inteligentnie łączą oba podejścia w oparciu o wymagania dotyczące zadania i wdrożenia.
Wynik
Wybierz architekturę opartą na sieciach CNN, gdy potrzebujesz wydajnego wnioskowania, pracujesz z ograniczonymi danymi treningowymi lub wdrażasz w środowiskach o ograniczonych zasobach, takich jak urządzenia mobilne. Sięgnij po modele transformatorowe, gdy obsługujesz dane sekwencyjne, zadania multimodalne lub scenariusze, w których rejestrowanie zależności dalekiego zasięgu i skalowanie z wykorzystaniem obliczeń zapewnią znaczący wzrost dokładności.