компьютердик көрүүобъектти аныктоотрансформаторлортерең окутууЖасалма интеллект

Трансформаторлор менен объекттерди аныктоо (DETR) жана салттуу CNN негизиндеги аныктоо

DETR объекттерди аныктоону трансформаторлорду колдонуу менен белгиленген божомолдоо маселеси катары кароо менен кайрадан элестетет, анкер кутучалары жана максималдуу эмес басуу сыяктуу кол менен жасалган компоненттерди жок кылат. Faster R-CNN жана YOLO сыяктуу салттуу CNN негизиндеги детекторлор аймактык сунуштарга жана көп жылдар бою компьютердик көрүү системасында үстөмдүк кылып келген көп баскычтуу түтүктөрдүн негизинде иштейт.

Көрүнүктүү нерселер

DETR якорь кутучаларын жана NMSти толугу менен жок кылат, аныктоолорду түз коюлган божомол катары чыгарат.
Кадимки CNN детекторлору реалдуу убакыттагы колдонмолор үчүн бир топ ылдамыраак бойдон калууда, көбүнчө 100 FPSден ашат.
DETRдин өзүнө көңүл буруусу CNNдин жергиликтүү кабылдоочу тармактарына салыштырмалуу глобалдык контекстти күчтүүрөөк түшүнүүнү камсыз кылат.
CNNге негизделген детекторлор кеңири шаймандар жана алдын ала даярдалган моделдер менен өнүккөн экосистеманын пайдасын көрүшөт.

Трансформаторлор менен объекттерди аныктоо (DETR) эмне?

Объекттердин топтомун түздөн-түз сүрөттүн өзгөчөлүктөрүнөн алдын ала айтуу үчүн трансформатордук коддогуч-декоддогуч архитектурасын колдонгон объекттерди толук аныктоо модели.

DETR Facebook AI Research тарабынан 2020-жылы "Трансформаторлор менен объекттерди башынан аягына чейин аныктоо" деген аталыштагы макалада киргизилген.
Архитектура CNN магистралын функцияларды бөлүп алуу үчүн жана трансформатордук коддогуч-декоддогуч менен айкалыштырат, бул трансформатордун негизиндеги божомолдоону камсыз кылат.
Бул анкердик кутучалардын, аймактык сунуш тармактарынын жана максималдуу эмес басуудан кийинки иштетүүнүн зарылдыгын жокко чыгарат.
DETR ар бир аныктоонун уникалдуулугун камсыз кылуу үчүн окутуу учурунда эки тараптуу дал келүүнү колдонот.
Баштапкы DETR модели COCO эталонунда 44 AP көрсөткүчүнө жетишкен, бул чыгарылган учурдагы Faster R-CNN көрсөткүчүнө салыштырмалуу.

CNNге негизделген салттуу аныктоо эмне?

Объекттерди локалдаштыруу үчүн аймактык сунуштарды, анкердик кутучаларды же торчо негизиндеги божомолдорду колдонгон конволюциялык нейрон тармактарына негизделген объекттерди аныктоо ыкмалары.

2015-жылы киргизилген Faster R-CNN, Аймактык Сунуш Тармактарын (RPN) киргизүү менен эки баскычтуу детекторлордун негизи болуп калды.
2016-жылы чыгарылган YOLO (Сиз бир гана жолу карайсыз) тор клеткаларындагы регрессиялык маселе катары фреймдөө аркылуу бир баскычтуу аныктоону биринчилерден болуп сунуштаган.
Салттуу детекторлор объектилердин жайгашкан жерин алдын ала айтуу үчүн алдын ала аныкталган масштабдагы жана аспекттик катыштагы анкердик кутучаларга көп таянат.
Максималдуу эмес басуу - бул кайталанган божомолдорду алып салуу үчүн колдонулган маанилүү кийинки иштетүү кадамы.
YOLOv8 жана EfficientDet сыяктуу заманбап CNN негизиндеги детекторлор ылайыктуу жабдыктарда 100 FPSден ашкан реалдуу убакыттагы тыянак чыгаруу ылдамдыгына жетишет.

Салаштыруу таблицасы

Мүмкүнчүлүк	Трансформаторлор менен объекттерди аныктоо (DETR)	CNNге негизделген салттуу аныктоо
Архитектура түрү	CNN магистралы менен трансформатордук коддогуч-декоддоочу	Тапшырмага мүнөздүү баштары бар таза конволюциялык нейрон тармагы
Алдын ала айтуу ыкмасы	Эки тараптуу дал келүү аркылуу божомолду коюңуз	Якорьго негизделген же якорьсуз торчо божомолдору
Кийинки иштетүү талап кылынат	Жок (башынан аягына чейин чыгаруу)	Максималдуу эмес басуу (NMS) талап кылынат
Окутуу конвергенциясы	Жайыраак, COCOдо 500 доор талап кылынат	Тезирээк, адатта моделине жараша 12-300 доор
Жыйынтыктоо ылдамдыгы	Орточо, GPU'да болжол менен 10-30 FPS	Тез, вариантына жараша 30дан 300+ FPSке чейин
Кайталанган божомолдорду иштетүү	Орнотулган жоготуу аркылуу орнотулган	NMS босогосун жөндөө аркылуу башкарылат
Глобалдык контекстти түшүнүү	Сүрөттүн аркы бетине өзүнө көңүл буруу аркылуу күчтүү	Чектелген, кабыл алуучу талаанын өлчөмүнө жараша болот
Компоненттин татаалдыгы	Жөнөкөйлөштүрүлгөн түтүк, кол менен жасалган тетиктер азыраак	Якорь жана NMS сыяктуу бир нече кол менен жасалган компоненттер
COCO (mAP) боюнча көрсөткүчтөр	44-63 AP вариантына жараша (DETR, Deformable DETR)	YOLOv8, Faster R-CNN сыяктуу популярдуу варианттар үчүн 37-55 AP

Толук салыштыруу

Архитектуралык философия

DETR аныктоонун кантип иштээрин түп-тамырынан бери өзгөртөт, аны түз коюлган божомолдоо маселеси катары көрсөтөт. Миңдеген талапкер кутучаларын түзүп, аларды чыпкалоонун ордуна, ал болжолдоолордун белгиленген жыйындысын (адатта 100) чыгарат жана аларды венгер алгоритмин колдонуп, чындыктын негизине дал келтирет. Салттуу CNN детекторлору көбүрөөк инкременталдык ыкманы колдонушат, аныктоолорду сунуштар, якорьлор же торчо клеткалары аркылуу курушат, андан кийин аларды классификациялоонун жана регрессиянын бир нече этаптары аркылуу такташат.

Түтүктөрдүн жөнөкөйлүгү

DETRдин эң чоң артыкчылыктарынын бири - анын жөнөкөйлөштүрүлгөн түтүгү. Якорь генерациясын, аймактык сунуштарды жана NMSти алып салуу менен, моделди түшүнүү жана өзгөртүү бир топ жеңилдейт. Салттуу детекторлор, жогорку деңгээлде оптималдаштырылганы менен, кылдаттык менен жөндөөнү талап кылган көптөгөн кол менен жасалган компоненттерди камтыйт. Ар бир компонент иштин натыйжалуулугуна таасир эте турган гиперпараметрлерди жана дизайн чечимдерин киргизет, бул системаларды иштеп чыгууну жана мүчүлүштүктөрдү оңдоону татаалдаштырат.

Окутуу динамикасы жана конвергенциясы

DETRдин окутуусу CNNге негизделген альтернативаларга караганда жайыраак экени белгилүү. Баштапкы моделге атаандаштыкка жөндөмдүүлүккө жетүү үчүн COCOдо 500 доор талап кылынган, себеби трансформатордун декодери мейкиндиктеги көңүл буруу үлгүлөрүн үйрөнүү үчүн убакытты талап кылат. Кийинки Deformable DETR сыяктуу варианттар бул маселени сүрөттүн белгилүү бир аймактарына багытталган көңүл буруу механизмдерин киргизүү менен чечип, окутуу убактысын болжол менен 10 эсе кыскарткан. YOLO сыяктуу CNN детекторлору ошол убакыттын бир бөлүгүндө конвергенциялана алат, бул жаңы маалыматтар топтомдорун итерациялоодо абдан маанилүү.

Жыйынтыктоо ылдамдыгы жана жайылтуу

Реалдуу убакыттагы колдонмолор үчүн салттуу CNN детекторлору дагы эле олуттуу артыкчылыкка ээ. YOLO варианттары жана ушул сыяктуу бир баскычтуу моделдер заманбап GPUларда секундасына жүздөгөн кадрлар менен иштей алат, бул аларды видеоаналитика, автономдуу айдоо жана робототехника үчүн идеалдуу кылат. DETR баштапкы түрүндө бир топ жай иштейт, бирок оптималдаштырылган версиялар жана натыйжалуу трансформатордук конструкциялар бул боштукту жоюп жатат. Бүтүндөй сүрөт боюнча өзүнө көңүл буруунун эсептөө наркы трансформаторго негизделген детекторлор үчүн тоскоолдук бойдон калууда.

Глобалдык контекст жана окклюзияны башкаруу

DETRдин өзүнө көңүл буруу механизми ага сүрөттүн алыскы бөлүктөрүнүн ортосундагы мамилелер жөнүндө ой жүгүртүүгө мүмкүндүк берет, бул жабык объектилерди аныктоого жана көрүнүштүн контекстин түшүнүүгө жардам берет. Салттуу CNNлердин кабыл алуу талаасы чектелүү, бирок кеңейтилген бурулуштар жана функция пирамидасы тармактары сыяктуу ыкмалар алардын натыйжалуу контекстин кеңейтүүгө жардам берет. Иш жүзүндө эки ыкма тең кеңири таралган аныктоо сценарийлерин жакшы чечет, бирок DETR кеңири көрүнүш мамилелерин түшүнүүнү талап кылган объектилерде жакшыраак иштейт.

Экосистема жана практикалык кабыл алуу

CNNге негизделген салттуу аныктоо куралдар, алдын ала даярдалган моделдер, окуу куралдары жана өндүрүштү жайылтуу жагынан алда канча алдыда. Ultralytics YOLO, MMDetection жана Detectron2 сыяктуу алкактар CNN детекторлорун кеңири колдоону сунуштайт. DETR экосистемасы тездик менен өсүп жатат, DINO, Co-DETR жана RT-DETR сыяктуу варианттар иштөө чектерин кеңейтүүдө, бирок өндүрүш инженерлери дагы эле жетилгендиги жана ылдамдыгы үчүн көп учурда CNNге негизделген чечимдерди колдонушат.

Артыкчылыктары жана кемчиликтери

Трансформаторлор менен объекттерди аныктоо (DETR)

Артыкчылыктары

+ Башынан аягына чейин түтүк
+ Кол менен жасалган компоненттер жок
+ Күчтүү глобалдык контекст
+ Орнотулган көчүрмөлөрдү иштетүү
+ Таза архитектура

Конс

− Машыгуунун жай конвергенциясы
− Төмөнкү жыйынтык чыгаруу ылдамдыгы
− Эстутумдун көбүрөөк колдонулушу
− Жетилген эмес шаймандар

CNNге негизделген салттуу аныктоо

Артыкчылыктары

+ Тез жыйынтык чыгаруу ылдамдыгы
+ Тез машыгуу конвергенциясы
+ Жетилген экосистема
+ Алдын ала даярдалган көптөгөн варианттар
+ Четки түзмөктөр үчүн жакшы оптималдаштырылган

Конс

− NMS тюнингин талап кылат
− Якорь дизайнынын татаалдыгы
− Чектелген глобалдык контекст
− Көп баскычтуу түтүктөрдүн үстүнкү катмары

Жалпы каталар

Мит

DETR объекттерди аныктоодогу бардык CNN компоненттерин толугу менен алмаштырат.

Чындык

DETR баштапкы өзгөчөлүктөрдү алуу үчүн дагы эле CNN магистралын (адатта ResNet) колдонот. Трансформатор аныктоо башын жана божомолдоо механизмин гана алмаштырат. CNN магистралы чийки пикселдерди маанилүү өзгөчөлүк карталарына айландыруу үчүн маанилүү бойдон калууда.

Мит

DETRден улам салттуу CNN детекторлору эскирип калган.

Чындык

CNNге негизделген детекторлор ылдамдыгы жана натыйжалуулугунан улам өндүрүштү жайылтууда үстөмдүк кылууда. YOLOv8, YOLOv9 жана RT-DETR (чындыгында эки ыкманы тең айкалыштырган) сыяктуу моделдер көптөгөн реалдуу колдонмолор үчүн заманбап бойдон калууда. DETR алмаштыруучу эмес, маанилүү альтернатива болуп саналат.

Мит

DETR эч кандай пост-процесстин кереги жок.

Чындык

DETR NMS жана анкердик иштетүүнү жокко чыгарганы менен, ишенимдүүлүгү төмөн божомолдорду чыпкалоо үчүн дагы эле ишеним босогосун аныктоону талап кылат. Модель белгиленген сандагы божомолдорду чыгарат (адатта 100) жана босогодон жогору болгондор гана акыркы аныктоолор катары сакталат.

Мит

DETR ар дайым CNNге негизделген детекторлорго караганда такыраак.

Чындык

Тактык көбүнчө конкреттүү вариантка жана колдонуу учуруна жараша болот. DETR жана анын мураскерлери атаандаштыкка жөндөмдүү mAP упайларына жетишсе да, көптөгөн CNN негизиндеги детекторлор белгилүү бир эталондордо аларга дал келет же ашып түшөт. Баштапкы DETR чындыгында Faster R-CNN менен салыштырмалуу жакшыраак иштеген, бирок анчалык деле жакшы эмес.

Мит

DETR реалдуу убакыттагы колдонмолор үчүн колдонулбайт.

Чындык

Баштапкы DETR реалдуу убакыт режиминде колдонуу үчүн өтө жай болгону менен, RT-DETR (Real-Time DETR) сыяктуу жаңы варианттар ылдамдык үчүн атайын оптималдаштырылган жана атаандаштыкка жөндөмдүү кадр жыштыктарына жетише алат. Трансформаторго негизделген аныктоо үй-бүлөсү 2020-жылдан бери бир топ өнүктү.

Көп суралуучу суроолор

Объекттерди аныктоодо DETR эмнени билдирет?

DETR "DEtection TRansformer" дегенди билдирет. Ал Николас Карион жана Facebook AI Research компаниясынын кесиптештери тарабынан 2020-жылы киргизилген. Бул аталыш анын негизги инновациясын чагылдырат: башында табигый тилди иштетүү үчүн иштелип чыккан трансформатор архитектураларын сүрөттөрдөгү объекттерди аныктоо милдетине колдонуу.

DETR Faster R-CNNден эмнеси менен айырмаланат?

DETR Faster R-CNNден бир нече негизги жагынан айырмаланат. Faster R-CNN талапкер кутучаларын түзүү үчүн Регионалдык Сунуш Тармагын колдонот, андан кийин аларды классификация жана регрессия баштары аркылуу тактайт, акырында кайталангандарды алып салуу үчүн NMSти колдонот. DETR бул кадамдардын баарын өткөрүп жиберип, трансформатордун декодерин колдонуп, эки тараптуу дал келтирүү аркылуу жердеги чындыкка дал келген божомолдор топтомун түз чыгарат. Бул DETRдин түтүгүн жөнөкөйлөтөт, бирок аны окутууну татаалдаштырат.

Эмне үчүн DETR YOLOго караганда жайыраак машыгат?

DETRди окутуу, негизинен, трансформатордун декодери мейкиндик көңүл буруу үлгүлөрүн нөлдөн баштап үйрөнүшү керек болгондуктан жана эки бөлүктүү дал келүүнүн жоголушу татаалыраак оптималдаштыруу ландшафтын жаратат, ошондуктан жайыраак. Баштапкы DETR макаласында COCO боюнча 500 доор керек экени айтылган, ал эми YOLO моделдери адатта 12-300 доордо биригишет. Деформациялануучу DETR сыяктуу варианттар муну натыйжалуураак көңүл буруу механизмдерин киргизүү менен чечишкен.

DETR кичинекей объектилерди натыйжалуу аныктай алабы?

Баштапкы DETR CNN негизиндеги Feature Pyramid Networks (FPN) менен иштеген детекторлорго салыштырмалуу кичинекей объектилерди аныктоодо кыйынчылыктарга дуушар болгон. Бул чектөө өзүнө көңүл буруунун ар кандай масштабдагы функцияларды кантип иштетээринен келип чыккан. Көп масштабдуу деформациялануучу көңүл буруу сыяктуу кийинки жакшыртуулар бул боштукту бир топ жаап, заманбап DETR варианттарын кичинекей объектилерде алда канча атаандаштыкка жөндөмдүү кылды.

Автономдук айдоо үчүн DETR YOLOго караганда жакшыраакпы?

Автономдук айдоо колдонмолору үчүн YOLO жана ушул сыяктуу бир баскычтуу CNN детекторлору, адатта, коопсуздук үчүн маанилүү болгон реалдуу убакыттагы тыянак чыгаруу ылдамдыгынан улам артыкчылыктуу болуп саналат. DETRдин тактык артыкчылыктары көпчүлүк автономдук айдоо сценарийлериндеги кечигүү талаптарынан ашып түшпөйт. Бирок, бул тармак үчүн гибриддик ыкмалар жана натыйжалуу трансформатордун варианттары изилденүүдө.

DETRде эки тараптуу дал келүү деген эмне?

Эки бөлүктүү дал келүү - бул DETR окутуу учурунда чындык объектилерине божомолдорду дайындоо үчүн колдонгон механизм. Ал чындыкка божомолду дайындоону оптималдуу дал келүү маселеси катары карайт жана аны венгер алгоритмин колдонуп чечет. Бул ар бир чындык объектиси так бир божомолду алышын камсыздайт жана модель NMSке муктаж болбостон уникалдуу аныктоолорду чыгарууну үйрөнөт.

DETRди иштетүү үчүн мага GPU керекпи?

Ооба, DETRди иштетүү үчүн трансформатордун өзүнө көңүл буруусунун эсептөө талаптарынан улам GPU талап кылынат. Баштапкы DETR модели толук сүрөт боюнча көңүл бурууну иштетүү үчүн олуттуу эс тутумду талап кылат. Четки түзмөктөргө же CPUларга жайгаштыруу үчүн салттуу CNN детекторлору же RT-DETR сыяктуу оптималдаштырылган трансформатордун варианттары практикалык тандоолор болуп саналат.

DETRдин негизги варианттары кайсылар?

2020-жылдан бери бир нече маанилүү DETR варианттары иштелип чыккан. Деформациялануучу DETR тезирээк окутуу жана кичинекей объекттерди жакшыраак аныктоо үчүн көп масштабдуу деформациялануучу көңүл бурууну киргизди. DINO контрасттык ызы-чууну басаңдатууну жана суроо-талаптын формулировкасын кошту. RT-DETR реалдуу убакыттагы аткарууга багытталган. Co-DETR биргелешкен окутуу стратегияларын изилдеген. Ар бир вариант баштапкы архитектуранын белгилүү бир чектөөлөрүн карайт.

Максималдуу эмес басуу салттуу детекторлордо кандайча иштейт?

Максималдуу эмес басуу (NMS) - бул салттуу CNNге негизделген детекторлордо кайталанган аныктоолорду жок кылуучу пост-процесс ыкмасы. Ал божомолдорду ишеним баллы боюнча иреттеп, андан кийин эң жогорку ишеним кутучасын кайталап тандап, IoU босогосунан ашкан кабатталган кутучаларды басуу менен иштейт. Бул кадам зарыл, анткени анкердик ыкмалар бир эле объект үчүн табигый түрдө бир нече кабатталган божомолдорду жаратат.

Ыңгайлаштырылган объекттерди аныктоо долбоорлору үчүн кайсы ыкма жакшыраак?

Жеке долбоорлор үчүн тандоо сиздин артыкчылыктарыңызга жараша болот. Эгер сизге тез натыйжалар, тезирээк окутуу жана реалдуу убакыттагы тыянак чыгаруу керек болсо, YOLOv8 сыяктуу CNNге негизделген детектордон баштаңыз. Эгерде сиздин долбооруңуз глобалдык контекстти түшүнүүдөн пайда алса, окклюзиялары бар татаал көрүнүштөргө ээ болсо жана сизде узак убакытка окутууга убакыт болсо, DETR варианттарын изилдөөгө арзыйт. Көптөгөн адистер CNN детекторлору менен башташат жана баштапкы көрсөткүч иштегенден кийин трансформаторлор менен эксперимент жасашат.

Чыгарма

Таза, баштан аяк түтүк керек болгондо жана узак окутуу убактысын камсыздай алганда, айрыкча глобалдык контекст жана окклюзияны башкаруу маанилүү болгон изилдөө сценарийлери үчүн DETRди тандаңыз. Реалдуу убакыттагы тыянакты, тезирээк окутуу циклдерин жана жетилген куралдардын жана алдын ала даярдалган моделдердин экосистемасына жетүүнү талап кылган өндүрүш системалары үчүн салттуу CNNге негизделген аныктоону тандаңыз.

Тиешелүү салыштыруулар

CLIP кыстаруулары жана ачкыч сөзгө негизделген сүрөттү издөө

CLIP киргизүүлөрү сүрөттөрдү жана текстти жалпы семантикалык мейкиндикте түшүнүү үчүн терең үйрөнүүнү колдонот, ал эми ачкыч сөздөргө негизделген сүрөттү издөө кол менен дайындалган тегдерди же айланасындагы текстти дал келтирүүгө негизделген. CLIP заманбап визуалдык издөө тапшырмалары үчүн алда канча чоң ийкемдүүлүктү жана тактыкты сунуштайт, ал эми ачкыч сөздөрдүн ыкмалары тар, жакшы тандалган контексттерде пайдалуу бойдон калууда.

DeepSeek V4 жана GPT-4-класстагы моделдер

DeepSeek V4 - бул кытайлык жасалма интеллект лабораториясынан чыккан ачык салмактагы чоң тил модели, ал эми GPT-4 классындагы моделдер OpenAIдин флагмандык жабык булактуу системаларына тиешелүү. Бул салыштыруу иштеп чыгуучуларга жана бизнеске акылдуулук менен тандоо жасоого жардам берүү үчүн алардын архитектурасын, мүмкүнчүлүктөрүн, баасын, жеткиликтүүлүгүн жана реалдуу дүйнөдөгү иштешин изилдейт.

Google издөө алгоритми жана жөнөкөйлөштүрүлгөн класстык моделдер

Google издөө алгоритми миллиарддаган веб-баракчаларды машиналык окутууну жана жүздөгөн сигналдарды колдонуп рейтингге киргизет, ал эми жөнөкөйлөтүлгөн класстык моделдер жасалма интеллект концепцияларын үйрөтүүгө боло турган, жеткиликтүү алкактарга бөлөт. Бири өндүрүштө планетардык масштабда иштейт; экинчиси окуучулар үчүн жасалма интеллекттин чындыгында кандай иштээрин үйрөнүү үчүн педагогикалык көпүрө катары кызмат кылат.

Google издөө жана билим графиги боюнча издөө

Google Издөө – көпчүлүк адамдар күн сайын колдонгон кеңири веб индекстөө системасы, ал эми Knowledge Graph Search – бул түз жоопторду жана маалымат панелдерин колдогон Google'дун структураланган объект маалымат базасы. Алардын кандайча айырмаланарын түшүнүү эмне үчүн кээ бир сурамдар бай маалыматтарды кайтарарын, ал эми башкалары салттуу көк шилтемелерди кайтарарын түшүндүрүүгө жардам берет.

GPT стилиндеги архитектуралар жана Мамба негизиндеги тил моделдери

GPT стилиндеги архитектуралар бай контексттик түшүнүктү түзүү үчүн өзүнө көңүл бурган Трансформер декодер моделдерине таянат, ал эми Мамбага негизделген тил моделдери ырааттуулуктарды натыйжалуураак иштетүү үчүн структураланган абал мейкиндигин моделдөөнү колдонушат. Негизги компромисс - GPT стилиндеги системалардагы экспрессивдүүлүк жана ийкемдүүлүк, ал эми Мамбага негизделген моделдердеги масштабдуулук жана узак контексттик натыйжалуулук.