изкуствен интелекткомпютърно зрениеизвличане на изображениямултимодално обучениемашинно обучение
Съвпадение на текст с изображение срещу съвпадение на изображение с изображение
Съпоставянето на текст с изображение свързва писмени описания със съответните визуални елементи, докато съпоставянето на изображения с изображения намира визуални прилики между снимките. И двете изпълняват различни роли в търсачките, електронната търговия и обучителните процеси за изкуствен интелект, но разчитат на коренно различни стратегии за вграждане и случаи на употреба.
Акценти
Съвпадението на текст с изображение свързва езика и визията чрез споделени вграждания, което позволява възможности за нулев резултат.
Съпоставянето на изображения се фокусира единствено върху визуалното сходство, без да е необходим текстов контекст.
CLIP революционизира извличането на текст в изображение чрез обучение върху 400 милиона двойки данни, извлечени от мрежата.
Системите „изображение към изображение“ осигуряват обратно търсене на изображения и визуални препоръки за продукти в голям мащаб.
Какво е Съвпадение на текст с изображение?
Техника за извличане, която сдвоява описания на естествен език със съответстващи изображения, използвайки споделени пространства за вграждане.
Пионер в мащаба е разработен от модели като CLIP на OpenAI, пуснат през януари 2021 г., който е обучен върху 400 милиона двойки изображение-текст.
Използва двойни енкодери, където текст и изображения се проектират в споделено векторно пространство за сравнение на сходство.
Осигурява класификация с нулев резултат, което позволява на моделите да разпознават категории без специфично за задачата обучение.
Формира гръбнака на съвременните текстови търсачки на изображения и системи за модериране на съдържание.
Често срещаните критерии за оценка включват MS-COCO, Flickr30k и задачите за кръстосано извличане.
Какво е Съпоставяне на изображения?
Процес на компютърно зрение, който идентифицира визуални прилики между изображения въз основа на съдържание, стил или структура.
Разчита на дълбоко извличане на характеристики чрез конволюционни мрежи или визуални трансформатори, за да сравни визуалните сигнатури.
Използва се широко в търсачки с обратна търсачка на изображения като Google Images и TinEye.
Поддържа приложения като дедупликация на продукти, откриване на почти дубликати и визуално разпознаване на места.
Често използва перцептивно хеширане, CNN вграждания или научени дескриптори като SuperPoint и LoFTR.
Бенчмарковете включват Oxford5k, Paris6k и наборите от данни Revisited Oxford и Paris за извличане на изображения.
Сравнителна таблица
Функция
Съвпадение на текст с изображение
Съпоставяне на изображения
Входни методи
Текстова заявка + база данни с изображения
Заявка за изображение + база данни с изображения
Основна архитектура
Двоен енкодер с контрастно обучение
Екстрактори на характеристики на CNN или Vision Transformer
Основни случаи на употреба
Текстово търсене, класификация с нулев резултат, субтитри
Обратно търсене на изображения, дедупликация, визуално разпознаване на места
Ключови модели
КЛИП, ПОДРАВНАВАНЕ, BLIP, Флоренция
ResNet, DINOv2, LoFTR, SuperGlue
Показател за сходство
Косинусно сходство в пространството за съвместно вграждане
Евклидово разстояние или разстояние на Хеминг върху вектори на характеристики
Тип данни за обучение
Сдвоени набори от данни за изображения и текст от мрежата
Етикетирани набори от данни с изображения или самостоятелно контролирани колекции от изображения
Общи показатели
MS-COCO, Flickr30k, ImageNet (нулев кадър)
Оксфорд 5 хиляди, Париж 6 хиляди, Преминал през Оксфорд
Крос-модални възможности
Да, свързва езика и зрението
Не, работи само в рамките на зрителното поле
Подробно сравнение
Как всяка система разбира съдържанието
Системите за съпоставяне на текст с изображение се учат да съгласуват езиковата семантика с визуалните характеристики, което означава, че разбират какво изобразява изображението от човешка гледна точка. Системите за съпоставяне на изображения с изображения, от друга страна, се фокусират единствено върху визуални модели като форми, текстури и пространствени оформления. Първите интерпретират значението, докато вторите интерпретират външния вид.
Подходи за обучение и изисквания за данни
Обучението на система за съпоставяне на текст с изображение изисква огромни сдвоени набори от данни, където всяко изображение е снабдено с надпис или алтернативен текст, поради което модели като CLIP се нуждаят от стотици милиони двойки, извлечени от мрежата. Системите за съпоставяне на изображение с изображение могат да се обучават върху немаркирани изображения чрез самоконтрол или върху по-малки, курирани набори от данни, което ги прави по-гъвкави, когато сдвоените данни са оскъдни.
Приложения в реалния свят
Ще се сблъскате със съвпадение на текст с изображение, когато въвеждате описание в търсачка или използвате инструменти с изкуствен интелект, които генерират изображения от подкани. Съвпадението на изображение с изображение се показва при обратно търсене на изображения, откриване на авторски права и визуални препоръки за продукти, където потребителите качват снимка, за да намерят подобни артикули.
Силни страни в различни сценарии
Съвпадението на текст с изображение е отлично, когато потребителите могат да опишат какво искат, но нямат референтно изображение, което го прави идеално за творчески и проучвателни търсения. Съвпадението на изображение с изображение е успешно, когато прецизността е от значение и съществува визуална референция, като например намиране на точния вариант на продукта или идентифициране на конкретен ориентир.
Изчислителни съображения
И двата подхода се възползват от предварително изчислени вграждания, съхранявани във векторни бази данни за бързо извличане в голям мащаб. Системите за преобразуване на текст в изображение обаче често изискват повече място за съхранение, защото поддържат два енкодера и трябва да обработват различни езикови входни данни, докато системите за преобразуване на изображение в изображение понякога могат да използват компактни перцептивни хешове за леко съвпадение.
Предимства и Недостатъци
Съвпадение на текст с изображение
Предимства
+Разпознаване на нулев изстрел
+Заявки на естествен език
+Междумодална гъвкавост
+Силно семантично разбиране
Потребителски профил
−Необходими са масивни сдвоени данни
−По-високи разходи за изчисления
−Проблеми с езиковата двусмисленост
−Сложна настройка с двоен енкодер
Съпоставяне на изображения
Предимства
+Не са необходими текстови данни
+Опции за компактен хеш
+Бързо визуално сравнение
+Чудесно за дубликати
Потребителски профил
−Няма разбиране на семантичния език
−Чувствителен към редакции на изображения
−Ограничено от визуални характеристики
−Проблеми с абстрактни заявки
Често срещани заблуди
Миф
Съвпадението на текст с изображение може да намери всяко изображение, ако го опишете достатъчно добре.
Реалност
Тези системи зависят изцяло от изображенията, налични в базата данни, и от концепциите, наблюдавани по време на обучението. Силно специфични, нишови или частни изображения няма да могат да бъдат извлечени дори с перфектни описания.
Миф
Съпоставянето на изображения винаги дава визуално идентични резултати.
Реалност
Съвременните системи за преобразуване на изображения използват дълбоки характеристики, които улавят семантично сходство, така че могат да връщат визуално различни, но концептуално свързани изображения, като например различни породи кучета при търсене на такава.
Миф
CLIP и подобни модели разбират изображенията по начина, по който го правят хората.
Реалност
Тези модели изучават статистически асоциации между текст и пиксели. Липсва им истинско разбиране, могат да бъдат заблудени от враждебни примери и понякога пропускат очевидни визуални детайли, които хората забелязват мигновено.
Миф
Обратното търсене на изображения използва същата технология като съпоставянето на текст с изображение.
Реалност
Обратното търсене на изображения обикновено разчита на съпоставяне на изображения с помощта на перцептивно хеширане или CNN функции. Съпоставянето на текст с изображение е отделна система, която изисква текстова заявка, а не качено изображение.
Миф
Повече данни за обучение винаги означават по-добра производителност при съвпадение.
Реалност
Качеството, разнообразието и курирането на данните са също толкова важни, колкото и количеството. Шумните надписи, предубедените набори от данни или дублираните двойки могат да навредят на точността на извличане, дори при милиарди примери.
Често задавани въпроси
Каква е основната разлика между съпоставянето на текст с изображение и съпоставянето на изображение с изображение?
Съпоставянето на текст с изображение приема писмено описание като вход и намира изображения, които съответстват на това описание, докато съпоставянето на изображение с изображение приема изображение като вход и намира визуално подобни изображения. Първото работи в различни модалности, а второто остава във визуалната област.
Кой модел е най-подходящ за преобразуване на текст в изображение?
CLIP на OpenAI остава популярна базова линия, но по-нови модели като Florence на Microsoft, ALIGN на Google и BLIP на Salesforce често го превъзхождат в стандартните бенчмаркове. Най-добрият избор зависи от вашите изисквания за латентност, размера на набора от данни и дали се нуждаете от многоезична поддръжка.
Може ли съпоставянето на изображения да работи без дълбоко обучение?
Да, традиционните методи като перцептивно хеширане, SIFT характеристики и цветови хистограми могат да извършват съпоставяне на изображения без невронни мрежи. Подходите за дълбоко обучение обаче обикновено постигат по-висока точност при трудни бенчмаркове, защото улавят по-богати семантични характеристики.
Как CLIP извършва класификация с нулев изстрел?
CLIP кодира както етикети на изображение, така и кандидат-текстови етикети в едно и също пространство за вграждане, след което избира етикета, чието вграждане има най-голямо косинусно сходство с вграждането на изображението. Това му позволява да класифицира изображенията в категории, върху които никога не е бил изрично обучен.
Какви набори от данни се използват за оценка на системи за извличане на изображения?
Често срещани бенчмаркове включват MS-COCO и Flickr30k за задачи от текст към изображение, както и Oxford5k, Paris6k и наборите от данни Revisited Oxford и Paris за извличане на изображения към изображение. Те предоставят стандартизирани заявки и преценки за релевантност на базата на достоверни данни.
Съвпадението на текст с изображение същото ли е като генерирането на текст с изображение?
Не, това са напълно различни задачи. Съпоставянето извлича съществуващи изображения от база данни, докато генерирането създава нови изображения от нулата, използвайки модели като Stable Diffusion или DALL-E. И двете използват въвеждане на текст, но произвеждат коренно различни резултати.
Колко точно е обратното търсене на изображения днес?
Съвременните търсачки с обратна търсачка на изображения, като Google Images, постигат висока точност за популярни забележителности, продукти и лица, но се затрудняват със силно редактирани изображения, неясни обекти или заявки с ниска резолюция. Производителността варира значително в зависимост от типа съдържание.
Могат ли тези системи за съвпадение да обработват многоезични заявки?
Стандартният CLIP е обучен предимно върху данни на английски език, но многоезичните варианти като Multilingual CLIP и mCLIP поддържат десетки езици. Системите за съпоставяне на изображения са по своята същност езиково независими, тъй като обработват само пиксели.
Каква роля играе съпоставителното обучение в тези системи?
Контрастното обучение е доминиращата парадигма за обучение за съпоставяне на текст с изображение, като обучава моделите да сближават съвпадащите двойки в пространството за вграждане, докато раздалечават несъвпадащите двойки. Системите за съпоставяне на изображение с изображение също използват контрастни загуби, особено в самоконтролирани системи като SimCLR и DINO.
Как векторните бази данни ускоряват извличането на изображения?
Векторни бази данни като FAISS, Milvus и Pinecone съхраняват предварително изчислени вграждания и използват приблизителни алгоритми за най-близки съседи, за да намерят подобни вектори за милисекунди. Това избягва необходимостта от сравняване на всяка заявка с всяко изображение директно, което би било непосилно бавно при голям мащаб.
Решение
Изберете съвпадение на текст с изображение, когато потребителите ви търсят с думи и се нуждаете от семантично разбиране на езика и зрението. Изберете съвпадение на изображение с изображение, когато основната цел е визуално сходство, откриване на дубликати или обратно търсене на изображения. Много производствени системи всъщност комбинират и двете за по-богато търсене.