RAG vs fine-tuning: что выбрать для бизнеса — матрица решений

Зачем бизнесу кастомизировать LLM

Большие языковые модели (GPT-4o, Claude, GigaChat, YandexGPT) из коробки отвечают на общие вопросы. Но бизнесу нужно другое: модель, которая знает внутренние регламенты, продуктовую линейку, историю клиента. Два основных подхода к кастомизации — RAG и fine-tuning.

Путаница между ними стоит компаниям месяцы разработки и сотни тысяч рублей. Эта статья даёт чёткую матрицу выбора.

RAG: подключаем знания без переобучения

Retrieval-Augmented Generation — архитектура, при которой модель перед ответом находит релевантные фрагменты из внешней базы знаний и использует их как контекст.

Как работает RAG

Запрос пользователя
    ↓
Эмбеддинг запроса (text → vector)
    ↓
Поиск по векторной БД (Qdrant, Pinecone, pgvector)
    ↓
Топ-K релевантных чанков
    ↓
Промпт = системная инструкция + найденные чанки + вопрос
    ↓
LLM генерирует ответ на основе контекста

Сильные стороны RAG

Преимущество	Описание
Актуальность данных	Обновление базы знаний без переобучения — загрузил новый документ, он сразу доступен
Прозрачность	Можно показать источники: «Ответ основан на документе X, стр. 14»
Стоимость	Не требует GPU для обучения — только API-вызовы к LLM
Масштаб данных	Работает с терабайтами документов — база знаний не ограничена контекстным окном
Безопасность	Данные остаются в вашей инфраструктуре, в LLM передаются только релевантные фрагменты

Слабые стороны RAG

Ограничение	Описание
Качество зависит от retrieval	Если поиск не нашёл нужный чанк — модель не ответит, даже если информация есть
Латентность	Дополнительный шаг поиска добавляет 200–500 мс к каждому запросу
Чанкинг — инженерная задача	Неправильная нарезка документов убивает качество. Таблицы, списки, перекрёстные ссылки — всё требует обработки
Не меняет поведение модели	RAG даёт данные, но не учит модель новому стилю, терминологии или формату

Fine-tuning: переобучаем модель под задачу

Fine-tuning — дообучение весов модели на специализированном датасете. Модель «впитывает» знания, стиль и логику из обучающих примеров.

Методы fine-tuning

Метод	Суть	Когда использовать
Full fine-tuning	Обновление всех весов модели	Огромные датасеты, максимальная адаптация
LoRA / QLoRA	Обучение только адаптерных матриц (0.1–1% параметров)	Стандартный выбор для бизнеса — баланс качества и стоимости
SFT (Supervised Fine-Tuning)	Обучение на парах «вопрос — эталонный ответ»	Когда есть размеченные примеры
RLHF / DPO	Обучение с обратной связью от человека	Когда важен тон, безопасность, предпочтения

Сильные стороны fine-tuning

Преимущество	Описание
Меняет поведение модели	Модель усваивает стиль, терминологию, формат ответов, логику рассуждений
Нет зависимости от retrieval	Знания «зашиты» в веса — не нужен поиск по базе
Низкая латентность	Ответ генерируется без дополнительного шага поиска
Работает с неструктурированными знаниями	Модель может усвоить неявные паттерны, которые сложно найти через поиск

Слабые стороны fine-tuning

Ограничение	Описание
Стоимость обучения	GPU-часы: LoRA от $50–200, полное дообучение — тысячи долларов
Устаревание	При изменении данных нужно переобучать модель
Галлюцинации	Модель может «додумывать» факты, особенно на редких запросах
Объём данных	Нужно минимум 500–1000 качественных примеров для заметного эффекта
Необходима экспертиза	Подготовка датасета, выбор гиперпараметров, оценка качества — нетривиальные задачи

Сравнение RAG и fine-tuning по критериям

Критерий	RAG	Fine-tuning
Стоимость запуска	Низкая ($100–500)	Средняя–высокая ($500–5000+)
Время до продакшена	2–4 недели	4–8 недель
Актуальность данных	Мгновенная (обновил базу)	Требует переобучения
Стиль/тон ответов	Не меняет (только промпт)	Полностью адаптирует
Прозрачность	Показывает источники	Чёрный ящик
Масштаб знаний	Не ограничен	Ограничен объёмом обучения
Латентность	+200–500 мс	Без дополнительной задержки
Галлюцинации	Снижает (заземляет на факты)	Может усилить на редких запросах
Необходимая экспертиза	Средняя (инженерия)	Высокая (ML + данные)
Поддержка	Обновление базы знаний	Регулярное переобучение

Дерево решений: что выбрать

Выбирайте RAG, если:

Данные часто меняются (документация, регламенты, прайсы, новости)
Критична прозрачность — нужно показывать источники ответов
Бюджет ограничен и нужен быстрый запуск
Объём знаний измеряется тысячами документов
Важна точность фактов (юридические, медицинские, финансовые данные)

Выбирайте fine-tuning, если:

Нужен уникальный стиль/тон ответов (бренд-голос, специализированная терминология)
Задача требует специфической логики рассуждений (не просто поиск фактов)
Данные стабильны и не меняются еженедельно
Есть бюджет на подготовку датасета и обучение
Латентность критична (реалтайм-приложения)

Выбирайте гибрид RAG + fine-tuning, если:

Нужен и уникальный стиль, и работа с актуальными данными
Строите продуктовый AI-ассистент для конечных пользователей
Есть бюджет на оба подхода и команда для поддержки

Гибридный подход: RAG + fine-tuning

На практике лучшие результаты даёт комбинация. Fine-tuned модель лучше понимает контекст из RAG и генерирует ответы в нужном формате.

Архитектура гибрида

Запрос → RAG retrieval → Контекст + Запрос → Fine-tuned LLM → Ответ

Пример: корпоративный ассистент банка. Fine-tuning обучает модель банковской терминологии и формату ответов. RAG подтягивает актуальные тарифы, условия продуктов, регламенты.

Матрица сценариев

Сценарий	Рекомендация	Почему
Чат-бот техподдержки	RAG	Ответы основаны на базе знаний, данные часто обновляются
Юридический ассистент	RAG	Нужны точные ссылки на законы и документы
Бренд-копирайтер	Fine-tuning	Уникальный стиль, тон, голос бренда
Медицинский ассистент	RAG + fine-tuning	Специализированная терминология + актуальные данные
Анализ договоров	RAG + fine-tuning	Формат вывода + контекст из конкретных документов
Внутренний помощник HR	RAG	Отвечает по регламентам и политикам компании
Генератор отчётов	Fine-tuning	Специфический формат, шаблоны, стиль
Продуктовый ассистент SaaS	RAG + fine-tuning	Знание продукта + стиль общения + актуальная документация

Стоимость и сроки

Параметр	RAG	Fine-tuning	Гибрид
MVP (до первого результата)	2–3 недели	4–6 недель	6–8 недель
Стоимость MVP	200–500K ₽	300–800K ₽	500K–1.2M ₽
Ежемесячная поддержка	30–80K ₽	50–150K ₽	80–200K ₽
Основные статьи расходов	Векторная БД, API LLM, инженер	GPU, датасет, ML-инженер	Всё вместе

Типичные ошибки

«Нам точно нужен fine-tuning» — в 70% случаев RAG решает задачу быстрее и дешевле. Начинайте с RAG, переходите к fine-tuning, если RAG не даёт нужного качества.
Плохой чанкинг — нарезать документы по 500 токенов и надеяться на лучшее. Инвестируйте в стратегию чанкинга: семантическая нарезка, overlap, сохранение таблиц и списков.
Мало данных для fine-tuning — 50 примеров не изменят поведение модели. Минимум 500–1000 качественных пар «вопрос–ответ».
Игнорирование оценки качества — без метрик (Faithfulness, Relevancy, BLEU/ROUGE) невозможно понять, работает ли система. Внедрите eval-pipeline с первого дня.
Один подход навсегда — бизнес-требования меняются. RAG может перерасти в гибрид, когда появится потребность в уникальном стиле ответов.

Что дальше

Выбор между RAG и fine-tuning — архитектурное решение, которое определяет стоимость, сроки и качество вашего AI-продукта. Ошибка на этом этапе стоит месяцы разработки.

Нужна помощь с выбором и внедрением? Мы в Новаком проектируем и разрабатываем AI-решения: RAG-системы, fine-tuning, AI-агенты.

Обсудить проект — бесплатная консультация 30 минут, разберём вашу задачу и предложим архитектуру
IoT + AI решения — если ваш проект на стыке IoT и ИИ