інфраструктура штучного інтелектумашинне навчанняGPU-обчисленняхмарна інфраструктураllm-оптимізація

Ефективність логічного висновку проти вартості обчислень для навчання

Ефективність логічного висновку вимірює, наскільки добре розгорнута модель ШІ обробляє запити, використовуючи мінімальні обчислення, тоді як вартість обчислень на навчання відображає ресурси, витрачені на навчання моделі з нуля. Обидва показники формують економіку ШІ, але працюють на абсолютно різних етапах життєвого циклу моделі.

Найважливіше

Витрати на логічний висновок зазвичай перевищують витрати на навчання протягом кількох місяців після успішного запуску моделі.
Навчання – це одноразові витрати, тоді як логічний висновок – це постійні операційні витрати.
Для кожної фази оптимальним є різне обладнання, при цьому навчання надає перевагу H100/B200, а логічний висновок — L40S або користувацькі ASIC.
Методи оптимізації логічного висновку, такі як повторне використання KV-кешу та квантування, можуть зменшити витрати в 3-10 разів без перенавчання.

Що таке Ефективність висновків?

Наскільки ефективно навчена модель ШІ виконує прогнози, використовуючи мінімальні обчислення, пам'ять та енергію на запит.

Висновок відбувається після навчання та розгортання моделі, обробляючи кожен новий вхідний даний елемент по одному або невеликими партіями.
Сучасні оптимізації виводу включають квантування, повторне використання KV-кешу, спекулятивне декодування та стратегії пакетної обробки, які можуть скоротити витрати в 3-10 разів.
Такі фреймворки, як vLLM, TensorRT-LLM та SGLang, спеціалізуються на максимізації пропускної здатності токенів за секунду на графічний процесор.
Цільові значення затримки для виробничого висновку зазвичай коливаються від 50 мс для чату до кількох секунд для генерації довгих форм.
Витрати на логічний висновок домінують у загальних витратах на ШІ у великих масштабах, часто перевищуючи витрати на навчання протягом кількох місяців після розгортання.

Що таке Вартість обчислень для навчання?

Загальна кількість годин роботи графічного процесора, енергії та коштів, необхідних для навчання моделі від необроблених даних до стану, придатного для розгортання.

За оцінками, навчання передових моделей, таких як GPT-4 або Gemini Ultra, коштує десятки мільйонів доларів лише на обчислення.
Обчислення зазвичай вимірюються в FLOP (операціях з плаваючою комою), причому сучасні LLM навчаються на 10^23 - 10^25 FLOP.
У навчальних запусках використовуються тисячі графічних процесорів або процесорів, кластеризованих разом протягом тижнів або місяців паралельно.
Вартість включає не лише час, витрачений на графічний процесор, але й підготовку даних, невдалі експериментальні запуску та перевірку гіперпараметрів.
Попереднє навчання – це одноразові витрати, хоча точне налаштування та постійне навчання додають періодичні витрати протягом життєвого циклу моделі.

Таблиця порівняння

Функція	Ефективність висновків	Вартість обчислень для навчання
Коли це відбувається	Після розгортання, щоразу, коли модель використовується	Перед розгортанням, під час створення моделі
Тривалість витрат	Постійно, масштабується залежно від обсягу використання	Одноразовий сплеск, що триває від тижнів до місяців
Основний показник	Токени за секунду на графічний процесор, затримка, вартість запиту	Загальна кількість FLOP, годин роботи GPU, час навчання настінного годинника
Типовий масштаб	Від мільйонів до мільярдів запитів на місяць	Тисячі графічних процесорів працюють протягом 1-6 місяців
Інструменти оптимізації витрат	Квантування, пакетна обробка, кешування, дистиляція моделі	Змішана точність, градієнтна контрольна точка, паралелізм даних
Домінуючий фактор витрат	Пропускна здатність пам'яті та розмір KV-кешу	Міжграфічний зв'язок та обсяг пам'яті
Енергетичний профіль	Стабільний, розподілений між багатьма меншими запитами	Масивний концентрований сплеск під час тренувального бігу
Фокус на апаратному забезпеченні	Чіпи, оптимізовані для логічного виводу (L40S, TPU v5e, кастомні ASIC)	Чіпи, оптимізовані для навчання (H100, B200, TPU v5p)

Детальне порівняння

Стадія та частота життєвого циклу

Вартість навчальних обчислень – це одноразова інвестиція, яка здійснюється ще до того, як модель побачить реального користувача. Ефективність логічного висновку, з іншого боку, є постійною проблемою, яка починається з моменту запуску моделі та триває для кожного окремого запиту, який вона обслуговує. Компанія може витратити 50 мільйонів доларів на навчання моделі один раз, а потім витратити набагато більше на логічний висновок протягом життєвого циклу моделі, якщо вона стане популярною.

Структура витрат та масштабування

Витрати на навчання масштабуються залежно від розміру моделі та розміру набору даних приблизно передбачуваним чином, подвоєння обчислень приблизно подвоює можливості до певної точки. Витрати на логічний висновок масштабуються залежно від попиту користувачів, який набагато менш передбачуваний і може різко зрости за одну ніч, якщо продукт стане вірусним. Ось чому стартапи часто недооцінюють бюджети на логічний висновок, водночас переоцінюючи бюджети на навчання, що призводить до несподіваних змін грошових потоків протягом першого року розгортання.

Методи оптимізації

Оптимізація навчання зосереджена на вичавленні більшої кількості знань з кожного FLOP за допомогою таких методів, як арифметика зі змішаною точністю, шардування пам'яті в стилі ZeRO та накопичення градієнтів. Оптимізація логічного висновку використовує інший підхід, надаючи пріоритет пропускній здатності пам'яті, управлінню KV-кешем та спекулятивному декодуванню для обслуговування більшої кількості запитів на графічний процесор. Ці дві області мають деякі спільні фундаментальні принципи, але значною мірою розійшлися в окремі інженерні спеціальності з власними фреймворками та бенчмарками.

Вибір обладнання та інфраструктури

Навчальні навантаження віддають перевагу графічним процесорам з масивною пам'яттю HBM та високошвидкісним з'єднанням, таким як NVIDIA H100 та B200, призначеним для синхронної роботи тисяч прискорювачів. Навчальні навантаження логічного виводу можуть працювати на дешевших, енергоефективніших чіпах, таких як L40S, TPU v5e або навіть на спеціальних кремнієвих процесорах від Groq та Cerebras, які надають пріоритет затримці одного запиту над пропускною здатністю навчання. Багато організацій зараз використовують окремі кластери для кожної фази, щоб оптимізувати витрати.

Вплив на бізнес та прийняття рішень

Вартість навчальних обчислень визначає, чи взагалі можливо створити модель, часто визначаючи, які організації можуть конкурувати на передовій. Ефективність логічного висновку визначає, чи є розгорнута модель прибутковою, оскільки кожен відсотковий пункт підвищення ефективності безпосередньо збільшує рентабельність кожного виклику API або взаємодії з продуктом. Інвестори та фінансові директори все частіше ретельно вивчають економіку одиниць логічного висновку, оскільки саме в ній полягає довгострокова бізнес-цінність.

Переваги та недоліки

Ефективність висновків

Переваги

+ Прямий вплив на маржу
+ Постійні покращення оптимізації
+ Менша затримка виграє користувачів
+ Ваги з урахуванням вимог

Збережено

− Непередбачувані сплески трафіку
− Фрагментація апаратного забезпечення
− Складна логіка кешування
− Важко провести справедливе порівняння

Вартість обчислень для навчання

Переваги

+ Передбачуваний бюджет заздалегідь
+ Одноразові капітальні витрати
+ Чіткі показники рентабельності інвестицій
+ Розблокування можливостей Frontier

Збережено

− Масштабне початкове втрата готівки
− Невдалі запуску витрачають ресурси
− Ризик прив'язки до постачальника
− Тривалі цикли ітерацій

Поширені помилкові уявлення

Міф

Навчання завжди дорожче, ніж логічний висновок.

Реальність

Для популярних розгорнутих моделей витрати на логічний висновок зазвичай перевищують загальні витрати на навчання протягом 6-12 місяців. За повідомленнями, ChatGPT витрачає сотні мільйонів щорічно на логічний висновок, що значно перевищує початковий бюджет на навчання. Вартість навчання – це одноразовий удар, тоді як логічний висновок накопичується безкінечно.

Міф

Дорожчий навчальний пробіг завжди створює кращу модель.

Реальність

Обчислення необхідні, але недостатні. Якість даних, вибір архітектури та методологія навчання часто мають більше значення, ніж сирі FLOP. Деякі з найкращих моделей з відкритим кодом були навчені зі скромним бюджетом за допомогою розумних методів, тоді як дорогі запуску дали невтішні результати.

Міф

Ефективність логічного висновку полягає лише у пришвидшенні моделей.

Реальність

Швидкість – це один вимір, але ефективність логічного висновку також охоплює вартість токена, споживання енергії, обсяг пам'яті та надійність під навантаженням. Модель може бути швидкою, але дорогою, або дешевою, але ненадійною, і справжня ефективність збалансовує всі ці фактори.

Міф

Вам потрібно турбуватися лише про одне або інше.

Реальність

Сучасні системи штучного інтелекту вимагають оптимізації обох аспектів. Модель, навчена дешево, але неефективно обслуговується, призведе до втрат грошей, тоді як дорого навчена модель з поганою економікою висновків буде мати труднощі з пошуком сталої бізнес-моделі. Ці дві проблеми тісно пов'язані.

Міф

Дешевший висновок завжди означає гіршу якість.

Реальність

Такі методи, як квантування, дистиляція та спекулятивне декодування, можуть значно зменшити витрати на висновок з мінімальною втратою якості. Квантування INT8 або INT4 часто зберігає понад 95% якості моделі, одночасно скорочуючи обчислювальні вимоги вдвічі або більше.

Часті запитання

Яка різниця між логічним висновком та навчанням у ШІ?

Навчання – це процес навчання моделі шляхом коригування її ваг за допомогою великих наборів даних, що зазвичай вимагає тисяч графічних процесорів, що працюють протягом тижнів. Висновок – це те, що відбувається після розгортання, коли навчена модель обробляє нові вхідні дані для генерації прогнозів або тексту. Навчання відбувається один раз (або зрідка для точного налаштування), тоді як висновок відбувається щоразу, коли хтось використовує модель.

Скільки коштує навчання великої мовної моделі?

Витрати на навчання моделей Frontier коливаються від приблизно 1 мільйона доларів для менших відкритих моделей до понад 100 мільйонів доларів для таких систем, як GPT-4 або Gemini Ultra. Ці цифри включають лише обчислювальні витрати, а не витрати на збір даних чи зарплати дослідників. Тенденція полягає приблизно в 10-кратному зростанні витрат кожні 1-2 роки в міру масштабування моделей.

Чому висновок часто дорожчий за навчання?

Оскільки логічний висновок відбувається безперервно для мільярдів запитів, сукупні обчислення швидко накопичуються. Модель, яка обслуговує 100 мільйонів користувачів, що роблять 10 запитів на день, витратить набагато більше годин на графічному процесорі протягом року, ніж було витрачено на початковий навчальний прогін. Ось чому такі компанії, як OpenAI, витрачають більшу частину свого обчислювального бюджету на обслуговування існуючих моделей, а не на навчання нових.

Які найкращі способи зменшення витрат на логічний висновок?

До найефективніших методів належать квантування (зниження числової точності з FP16 до INT8 або INT4), оптимізація KV-кешу, пакетування запитів, спекулятивне декодування та дистиляція моделей. Використання апаратного забезпечення, оптимізованого для логічного висновку, такого як графічні процесори або процесори L40S, також може скоротити витрати в 2-5 разів порівняно з чіпами, оптимізованими для навчання, такими як H100, для обслуговування робочих навантажень.

Чи можна ефективно навчити модель з невеликим бюджетом?

Так, особливо для предметно-орієнтованих або менших моделей. Такі методи, як точне налаштування LoRA, параметрично ефективне навчання та використання попередньо навчених базових моделей, можуть зменшити витрати на навчання в 100 разів або більше. Моделі, такі як Llama 3 8B та Mistral 7B, були навчені менш ніж за 5 мільйонів доларів, забезпечуючи при цьому конкурентоспроможну продуктивність у багатьох завданнях.

Як вимірюється ефективність висновків?

До поширених показників належать кількість токенів за секунду на графічний процесор, час до першого токена (TTFT), затримка між токенами, вартість на мільйон токенів та пропускна здатність при одночасному навантаженні. Такі фреймворки, як vLLM та TensorRT-LLM, повідомляють про ці показники, а бенчмарки, такі як MLPerf Inference, забезпечують стандартизовані порівняння між різними апаратними засобами.

Чи включає вартість навчальних обчислень невдалі експерименти?

На практиці, так. Більшість серйозних навчальних зусиль включають десятки невдалих прогонів через помилки, проблеми з гіперпараметрами або проблеми з масштабуванням. Галузеві оцінки показують, що 30-50% загальних навчальних обчислень витрачається на експерименти, які не створюють кінцевої моделі, тому ретельне відстеження експериментів та прогони перевірки меншого масштабу є такими важливими.

Яке обладнання найкраще для логічного висновку, а яке для навчання?

Навчання вигідно піддається використанню графічних процесорів з масивною пам'яттю HBM та швидким з'єднанням, таких як NVIDIA H100 або B200, які синхронізують тисячі прискорювачів. Виведення даних може використовувати дешевші та ефективніші чіпи, такі як L40S, TPU v5e, або спеціалізовані прискорювачі від Groq та Cerebras, які надають пріоритет затримці на запит та енергоефективності над необробленою пропускною здатністю.

Як розмір моделі впливає на обидві витрати?

Навчання більших моделей коштує дорожче, оскільки вони потребують більше FLOP та пам'яті, а їх обслуговування коштує дорожче, оскільки кожен запит вимагає більше обчислень та пропускної здатності пам'яті. Однак, більші моделі часто забезпечують кращу якість за меншої затримки (потрібно менше токенів), тому залежність не є суворо лінійною. Оптимальний розмір моделі значною мірою залежить від конкретного випадку використання та моделей трафіку.

Чи будуть витрати на логічний висновок продовжувати падати?

Так, витрати на логічний висновок знижуються приблизно в 10 разів кожні 1-2 роки завдяки вдосконаленню апаратного забезпечення, оптимізації програмного забезпечення та алгоритмічних удосконалень. Вартість обслуговування якості рівня GPT-3.5 знизилася більш ніж на 90% з 2023 року, і очікується, що ця тенденція продовжиться, оскільки такі методи, як дистиляція, квантування та спеціалізовані чіпи логічного виводу, розвиватимуться.

Висновок

Оптимізуйте ефективність логічного висновку, коли ваша модель вже розгорнута та обслуговує реальних користувачів, оскільки кожна зекономлена мілісекунда та токен призводить до значної економії коштів. Зосередьтеся на вартості навчальних обчислень, коли створюєте нову модель з нуля та потребуєте балансу між покращенням можливостей та початковими інвестиціями. Більшість розвинених організацій, що займаються штучним інтелектом, ставляться до обох як до критично важливих аспектів, але ефективність логічного висновку зазвичай забезпечує кращу рентабельність інвестицій для вже існуючих продуктів, тоді як навчальні обчислення є запорукою нових проривів.

Пов'язані порівняння

AWS проти Google Cloud

Це порівняння аналізує Amazon Web Services та Google Cloud, досліджуючи їхні пропозиції послуг, моделі ціноутворення, глобальну інфраструктуру, продуктивність, досвід розробників та оптимальні сценарії використання, допомагаючи організаціям обрати хмарну платформу, яка найкраще відповідає їхнім технічним і бізнес-вимогам.

Docker проти віртуальних машин

Цей порівняльний аналіз пояснює відмінності між Docker-контейнерами та віртуальними машинами, досліджуючи їхню архітектуру, використання ресурсів, продуктивність, ізоляцію, масштабованість та типові сценарії застосування, допомагаючи командам обрати, який підхід до віртуалізації найкраще відповідає сучасним потребам розробки та інфраструктури.

Google Cloud проти Azure

Це порівняння оцінює Google Cloud та Microsoft Azure, порівнюючи їхні хмарні сервіси, підходи до ціноутворення, глобальну інфраструктуру, корпоративне впровадження, досвід розробників та переваги в роботі з даними, штучним інтелектом та гібридними середовищами, щоб допомогти організаціям обрати найпридатнішу хмарну платформу.

Агрегація телеметрії проти ведення журналу з одного джерела

Агрегація телеметрії об'єднує метрики, журнали та трасування з багатьох джерел в єдиний конвеєр, тоді як ведення журналу з одного джерела зосереджується на зборі та аналізі даних з одного конкретного джерела. Правильний вибір залежить від складності системи, цілей спостереження та масштабу експлуатації.

Векторні бази даних проти традиційних реляційних баз даних

Векторні бази даних спеціалізуються на зберіганні та пошуку високовимірних вбудовувань для завдань штучного інтелекту та подібності, тоді як традиційні реляційні бази даних чудово працюють зі структурованими даними з точними запитами та транзакціями ACID. Вибір між ними залежить від того, чи зосереджене ваше робоче навантаження на семантичному пошуку, чи на цілісності транзакцій.