głębokie uczenie sięsieci neuronowewidzenie komputeroweNLPsztuczna inteligencjauczenie maszynowe

Modele transformatorów a architektury oparte na sieciach CNN

Modele transformatorowe i architektury oparte na sieciach neuronowych (CNN) reprezentują dwa dominujące podejścia w uczeniu głębokim, z których każde wyróżnia się w innych dziedzinach. Sieci transformatorowe wykorzystują samouważność do wychwytywania relacji globalnych, podczas gdy sieci neuronowe (CNN) wykorzystują filtry splotowe do efektywnego wykrywania lokalnych wzorców przestrzennych.

Najważniejsze informacje

Transformatory przechwytują globalny kontekst z pierwszej warstwy, podczas gdy sieci CNN budują zrozumienie poprzez hierarchie cech od lokalnych do globalnych.
Sieci CNN pozostają wydajniejsze pod względem parametrów i szybsze w przypadku zadań wizyjnych o wysokiej rozdzielczości na sprzęcie brzegowym.
Transformatory dominują w zadaniach językowych i stają się coraz bardziej konkurencyjne w zakresie wizji po wstępnym szkoleniu na dużą skalę.
Architektury hybrydowe, łączące warstwy konwolucyjne z uwagą, są obecnie powszechne w najnowocześniejszych modelach.

Czym jest Modele transformatorów?

Architektury głębokiego uczenia się wykorzystują mechanizmy samouwagi do przetwarzania danych sekwencyjnych i kontekstowych w różnych modalnościach.

Wprowadzono je w artykule z 2017 r. pt. „Attention Is All You Need” autorstwa Vaswaniego i współpracowników z Google Brain.
Głównym mechanizmem jest samouwaga, która oblicza relacje pomiędzy wszystkimi tokenami w sekwencji jednocześnie.
Obsługuje duże modele językowe, takie jak GPT-4, BERT i Llama, a także transformatory wizji, takie jak ViT.
Skutecznie skaluje się w przypadku ogromnych zbiorów danych i liczb parametrów, często zawierających miliardy parametrów.
Wymaga znacznych zasobów obliczeniowych do przeprowadzenia szkolenia, zazwyczaj wykorzystując równolegle procesory GPU lub TPU.

Czym jest Architektury oparte na CNN?

Sieci neuronowe stosujące filtry splotowe do danych wejściowych w celu wyodrębnienia hierarchicznych cech przestrzennych służących do rozpoznawania wzorców.

Zainspirowane korą wzrokową, a pierwsze koncepcje sięgają czasów Neocognitronu w Fukushimie z 1980 r.
LeNet-5 (1998) autorstwa Yanna LeCuna był pierwszą siecią CNN, która z powodzeniem zastosowała ją do rozpoznawania pisma ręcznego.
Projekt AlexNet (2012) udowodnił dominującą rolę sieci CNN w sieci ImageNet, zapoczątkowując współczesną rewolucję w dziedzinie głębokiego uczenia się.
Wykorzystuje współdzielenie wagi i łączność lokalną, dzięki czemu jest bardziej wydajny pod względem parametrów w porównaniu do sieci w pełni połączonych.
Nadal stanowi podstawę wielu zadań związanych z wizją w czasie rzeczywistym, jak wykrywanie obiektów i obrazowanie medyczne.

Tabela porównawcza

Funkcja	Modele transformatorów	Architektury oparte na CNN
Mechanizm rdzenia	Samodzielna uwaga na wszystkich stanowiskach	Filtry splotowe w regionach lokalnych
Rok wprowadzenia	2017	Lata 80. (Neocognitron), 1998 (LeNet-5)
Pole recepcyjne	Globalny od pierwszej warstwy	Lokalny, rozszerzający się z głębią
Efektywność danych	Potrzebne są duże zbiory danych, aby zabłysnąć	Dobrze radzi sobie z umiarkowanymi danymi
Koszt obliczeniowy	Złożoność kwadratowa z długością sekwencji	Liniowy z rozmiarem wejściowym
Domeny podstawowe	NLP, wizja, sztuczna inteligencja multimodalna	Wizja komputerowa, obrazowanie medyczne
Interpretowalność	Mapy uwagi dają pewien wgląd	Mapy cech wizualizują nauczone filtry
Odchylenie indukcyjne	Minimalne wbudowane założenia	Silna lokalność i niezmienność translacji
Skalowalność	Skaluje się zadziwiająco dobrze z parametrami	Malejące zyski powyżej pewnej wielkości

Szczegółowe porównanie

Filozofia architektury

Transformatory odchodzą od założeń sekwencyjnej lub przestrzennej lokalności wbudowanych we wcześniejsze architektury, pozwalając modelowi uczyć się, które relacje mają znaczenie, poprzez uwagę. Sieci neuronowe (CNN) stosują odwrotne podejście, wpisując lokalność na stałe w projekt za pomocą przesuwnych filtrów, które naturalnie wychwytują pobliskie wzorce. Ten filozoficzny podział kształtuje wszystko, co dzieje się dalej, od ilości danych treningowych, których potrzebuje każdy model, po łatwość ich generalizacji do nowych zadań.

Wydajność w różnych domenach

W przetwarzaniu języka naturalnego, transformatory zasadniczo zastąpiły wcześniejsze podejścia, ustanawiając najnowocześniejsze wyniki w testach porównawczych, takich jak GLUE i SuperGLUE. Sieci neuronowe (CNN) nadal dominują w wielu procesach przetwarzania obrazu komputerowego, zwłaszcza gdy liczy się szybkość wnioskowania, choć transformatory wizyjne (ViT) zniwelowały lukę w zakresie dokładności. W przypadku zadań obejmujących zarówno obrazy, jak i tekst, coraz powszechniejsze stają się modele hybrydowe i czyste transformatory.

Wymagania obliczeniowe

Samouwaga skaluje się kwadratowo wraz z długością sekwencji, co oznacza, że transformator przetwarzający dane wejściowe w postaci tokenów o rozmiarze 4 tys. wykonuje około 16 razy więcej pracy niż ten przetwarzający tokeny o rozmiarze 1 tys. Sieci neuronowe (CNN) skalują się liniowo wraz z wymiarami wejściowymi, co czyni je znacznie bardziej wydajnymi w przypadku obrazów o wysokiej rozdzielczości lub wideo w czasie rzeczywistym. Z drugiej strony, transformatory doskonale paralelizują się na procesorach graficznych, podczas gdy bardzo głębokie sieci CNN mogą napotykać wąskie gardła pamięci podczas propagacji wstecznej.

Dynamika danych i szkoleń

Transformatory są znane z tego, że wymagają ogromnych ilości danych i często wymagają milionów przykładów, zanim ich elastyczność się opłaci, choć modele wstępnie wytrenowane, takie jak BERT, zmieniły to równanie dzięki uczeniu transferowemu. Sieci neuronowe (CNN) mogą osiągać dobre wyniki przy mniejszych zbiorach danych dzięki wbudowanym obciążeniom indukcyjnym, dlatego wciąż cieszą się popularnością w dziedzinach takich jak obrazowanie medyczne, gdzie dane z etykietami są rzadkością. Obie technologie w ogromnym stopniu korzystają z wstępnego trenowania, ale droga do działającego modelu jest zazwyczaj krótsza w przypadku sieci CNN w systemach z małą ilością danych.

Praktyczne wdrożenie

przypadku urządzeń brzegowych i aplikacji mobilnych sieci neuronowe (CNN) nadal wygrywają pod względem wydajności, a architektury takie jak MobileNet i EfficientNet są zoptymalizowane pod kątem wnioskowania o niskim poborze mocy. Transformatory nadrabiają zaległości dzięki takim technikom jak destylacja wiedzy, kwantyzacja i warianty efektywnej uwagi, takie jak Linformer i Performer. W systemach chmurowych, gdzie dokładność jest priorytetem, transformatory często uzasadniają wyższy koszt obliczeniowy.

Zalety i wady

Modele transformatorów

Zalety

+ Przechwytuje zależności dalekiego zasięgu
+ Wysoce paralelizowalne szkolenie
+ Doskonała nauka transferu
+ Elastyczność multimodalna

Zawartość

− Koszt obliczeń kwadratowych
− Szkolenie wymagające dużej ilości danych
− Wysokie zużycie pamięci
− Trudniejsze do zinterpretowania

Architektury oparte na CNN

Zalety

+ Wydajny obliczeniowo
+ Silne odchylenia indukcyjne
+ Działa z mniejszą ilością danych
+ Dojrzałe narzędzia optymalizacyjne

Zawartość

− Ograniczony kontekst globalny
− Trudniej skalować
− Mniejsza elastyczność w różnych domenach
− Stała rozdzielczość wejściowa

Częste nieporozumienia

Mit

Transformery całkowicie zastąpiły sieci CNN w dziedzinie przetwarzania obrazu komputerowego.

Rzeczywistość

Sieci neuronowe (CNN) są nadal szeroko stosowane w produkcyjnych systemach wizyjnych, szczególnie w aplikacjach czasu rzeczywistego i mobilnych. Transformatory dorównują lub przewyższają dokładność sieci CNN w testach porównawczych, ale kompromisy w zakresie wydajności sprawiają, że modele splotowe są istotne w wielu scenariuszach wdrożeniowych.

Mit

Sieci CNN nie są w stanie uchwycić zależności dalekiego zasięgu.

Rzeczywistość

Chociaż poszczególne warstwy splotowe mają lokalne pola recepcyjne, ułożenie wielu warstw i zastosowanie splotów rozszerzonych znacząco rozszerza efektywne pole recepcyjne. Współczesne sieci neuronowe (CNN) mogą modelować relacje w dużych obszarach obrazu, choć transformatory czynią to bardziej bezpośrednim.

Mit

Transformatory nie mają polaryzacji indukcyjnej.

Rzeczywistość

Transformatory mają słabsze obciążenia indukcyjne niż sieci CNN, ale nie są wolne od obciążeń. Kodowanie pozycyjne, schematy tokenizacji i rozwiązania architektoniczne, takie jak maskowanie przyczynowe, wprowadzają do modelu założenia dotyczące struktury danych.

Mit

Większe modele transformatorów są zawsze lepsze.

Rzeczywistość

Prawa skalowania pokazują, że wydajność rośnie wraz z rozmiarem, ale zwroty maleją, a mniejsze modele często przewyższają większe w określonych zadaniach po dostrojeniu. Koszty obliczeniowe, opóźnienia i ograniczenia wdrożeniowe często sprawiają, że mniejsze modele są praktycznym wyborem.

Mit

Sieci CNN to przestarzała technologia.

Rzeczywistość

Sieci neuronowe CNN stale ewoluują dzięki innowacjom, takim jak sploty separowalne w głąb, wyszukiwanie architektury neuronowej oraz nowoczesne rozwiązania, takie jak ConvNeXt, które dorównują wydajnością transformatorom. Nadal stanowią fundament wielu najnowocześniejszych systemów.

Często zadawane pytania

Jaka jest główna różnica między transformatorami a sieciami CNN?

Podstawowa różnica tkwi w sposobie przetwarzania informacji przez każdą architekturę. Transformatory wykorzystują samouważność, aby powiązać każdy element wejściowy z każdym innym elementem jednocześnie, rejestrując globalny kontekst od samego początku. Sieci neuronowe stosują wyuczone filtry w lokalnych obszarach, budując zrozumienie szerszych wzorców dopiero w miarę przepływu danych przez głębsze warstwy.

Czy transformatory są lepsze niż sieci CNN do klasyfikacji obrazów?

W dużych testach porównawczych, takich jak ImageNet, transformatory wizji mogą dorównywać lub przewyższać najlepsze sieci neuronowe (CNN), ale dopiero po wstępnym wytrenowaniu na setkach milionów obrazów. W przypadku mniejszych zbiorów danych lub ograniczonej mocy obliczeniowej sieci CNN, takie jak ResNet i EfficientNet, często osiągają lepsze wyniki od razu po instalacji dzięki pomocnym, wbudowanym założeniom dotyczącym struktury obrazu.

Dlaczego w przypadku zadań NLP preferowane są transformatory?

Język z natury wiąże się z zależnościami dalekiego zasięgu, gdzie słowo na początku akapitu może wpływać na znaczenie wielu zdań później. Samouwaga obsługuje te powiązania bezpośrednio, podczas gdy sieci neuronowe (RNN) i sieci neuronowe (CNN) muszą propagować informacje przez wiele warstw lub kroków czasowych. Ten bezpośredni dostęp do kontekstu jest powodem, dla którego modele takie jak GPT i BERT zrewolucjonizowały przetwarzanie języka naturalnego (NLP).

Czy można łączyć sieci CNN i transformatory?

Tak, modele hybrydowe cieszą się coraz większą popularnością. Warstwy splotowe mogą wstępnie przetwarzać obrazy do postaci łatek dla transformatorów, a do szkieletów sieci CNN można dodać mechanizmy uwagi, aby uchwycić kontekst globalny. Modele takie jak DETR do wykrywania obiektów i ConvNeXt pokazują, że połączenie obu podejść często daje najlepsze rezultaty.

Która architektura jest szybsza w przypadku wnioskowania?

Sieci neuronowe (CNN) są generalnie szybsze w wnioskowaniu, szczególnie na urządzeniach brzegowych i procesorach graficznych zoptymalizowanych pod kątem operacji splotowych. Transformatory wymagają więcej pamięci i mocy obliczeniowej na krok wnioskowania ze względu na obliczenia wymagające uwagi, chociaż zoptymalizowane implementacje i wydajne warianty z uwzględnieniem uwagi niwelują tę lukę.

Czy transformatory wymagają więcej danych treningowych niż sieci CNN?

Zazwyczaj tak. Transformatory mają mniej wbudowanych założeń dotyczących struktury danych, więc potrzebują więcej przykładów, aby nauczyć się wzorców, które sieci neuronowe CNN wychwytują niemal automatycznie. Właśnie dlatego transfer uczenia z wstępnie wytrenowanych transformatorów stał się tak ważny – kompensuje on ich głód danych, wykorzystując wiedzę z ogromnych, wstępnie wytrenowanych korpusów.

Jakie są wydajne warianty transformatorów?

Naukowcy opracowali wiele wariantów obniżających koszty obliczeń transformatorowych, w tym Linformer (uwaga liniowa), Performer (uwaga losowa), Longformer (uwaga przesuwnego okna) i Reformer (hashowanie wrażliwe na lokalność). Podejścia te oferują pewną dokładność kosztem znacznego wzrostu wydajności w przypadku długich sekwencji.

Jaką architekturę powinienem zastosować w obrazowaniu medycznym?

Sieci neuronowe (CNN) pozostają dominującym wyborem w obrazowaniu medycznym ze względu na ograniczone zbiory danych z etykietami i potrzebę interpretowalnych map cech. Jednak transformatory wizyjne i modele hybrydowe zyskują na popularności, szczególnie w zadaniach takich jak segmentacja guzów, gdzie istotne jest uchwycenie kontekstu tkankowego w dużym zakresie. Wiele ostatnich publikacji przedstawia konkurencyjne wyniki z podejściami opartymi na transformatorach.

Jak transformery radzą sobie z obrazami, jeśli zostały zaprojektowane do wyświetlania tekstu?

Transformatory wizyjne dzielą obrazy na fragmenty o stałym rozmiarze (zazwyczaj 16x16 pikseli), spłaszczają każdy fragment do wektora i traktują je jak tokeny w zdaniu. Wyuczone osadzanie pozycyjne zachowuje informacje przestrzenne, a standardowy enkoder transformatorowy przetwarza sekwencję. Ta prosta adaptacja okazała się niezwykle skuteczna.

Czy transformatory kiedyś całkowicie zastąpią sieci CNN?

Prawdopodobnie nie w najbliższej przyszłości. Każda architektura ma mocne strony dostosowane do różnych ograniczeń, a trend w badaniach zmierza w kierunku projektów hybrydowych, łączących wydajność splotową z elastycznością uwagi. Przyszłość prawdopodobnie należy do modeli, które inteligentnie łączą oba podejścia w oparciu o wymagania dotyczące zadania i wdrożenia.

Wynik

Wybierz architekturę opartą na sieciach CNN, gdy potrzebujesz wydajnego wnioskowania, pracujesz z ograniczonymi danymi treningowymi lub wdrażasz w środowiskach o ograniczonych zasobach, takich jak urządzenia mobilne. Sięgnij po modele transformatorowe, gdy obsługujesz dane sekwencyjne, zadania multimodalne lub scenariusze, w których rejestrowanie zależności dalekiego zasięgu i skalowanie z wykorzystaniem obliczeń zapewnią znaczący wzrost dokładności.

Powiązane porównania

Adaptacja domeny a szkolenie w obrębie domeny

W tym porównaniu analizuje się strategiczne wybory w uczeniu maszynowym między adaptacją domeny, która przenosi wiedzę z oznaczonego środowiska źródłowego do innego środowiska docelowego, a uczeniem w domenie, które buduje modele wyłącznie w oparciu o dane zebrane w konkretnym środowisku wdrożenia docelowego.

Adaptacja językowa w sztucznej inteligencji a systemy sztucznej inteligencji niezależne od języka

Adaptacja językowa w sztucznej inteligencji koncentruje się na uczeniu modeli obsługi konkretnych języków poprzez precyzyjne dostrajanie i transfer wiedzy, podczas gdy systemy sztucznej inteligencji niezależne od języka dążą do przetwarzania dowolnego języka bez szkolenia językowego. Oba podejścia radzą sobie z wyzwaniami wielojęzyczności, ale różnią się zasadniczo pod względem architektury, danych szkoleniowych i wdrożenia w warunkach rzeczywistych.

Adaptacyjne pobieranie a statyczne potoki pobierania

Adaptacyjne pobieranie dynamicznie dostosowuje sposób i rodzaj informacji pobieranych przez system na podstawie zapytania, podczas gdy statyczne potoki pobierania podążają za stałymi regułami niezależnie od kontekstu. Oba te rozwiązania napędzają nowoczesne aplikacje AI, ale różnią się znacząco elastycznością, kosztami i dokładnością. Wybór między nimi zależy od złożoności obciążenia i budżetu.

Agenci AI kontra tradycyjne aplikacje internetowe

Agenci AI to autonomiczne, zorientowane na cel systemy, które potrafią planować, wnioskować i wykonywać zadania w różnych narzędziach, podczas gdy tradycyjne aplikacje internetowe podążają za sztywnymi, sterowanymi przez użytkownika przepływami pracy. Porównanie podkreśla przejście od statycznych interfejsów do adaptacyjnych, kontekstowych systemów, które mogą proaktywnie wspierać użytkowników, automatyzować decyzje i dynamicznie wchodzić w interakcje z wieloma usługami.

Agenci AI zorientowani na zadania kontra modele językowe ogólnego przeznaczenia

Agenci AI zorientowani na zadania są stworzeni do autonomicznego wykonywania określonych przepływów pracy, podczas gdy uniwersalne modele językowe służą jako wszechstronne generatory tekstu, reagujące na szeroki zakres podpowiedzi. Wybór między nimi zależy od tego, czy potrzebujesz niezawodnego wykonywania zadań, czy elastycznej inteligencji konwersacyjnej.