Зачем бизнесу кастомизировать LLM
Большие языковые модели (GPT-4o, Claude, GigaChat, YandexGPT) из коробки отвечают на общие вопросы. Но бизнесу нужно другое: модель, которая знает внутренние регламенты, продуктовую линейку, историю клиента. Два основных подхода к кастомизации — RAG и fine-tuning.
Путаница между ними стоит компаниям месяцы разработки и сотни тысяч рублей. Эта статья даёт чёткую матрицу выбора.
RAG: подключаем знания без переобучения
Retrieval-Augmented Generation — архитектура, при которой модель перед ответом находит релевантные фрагменты из внешней базы знаний и использует их как контекст.
Как работает RAG
Запрос пользователя
↓
Эмбеддинг запроса (text → vector)
↓
Поиск по векторной БД (Qdrant, Pinecone, pgvector)
↓
Топ-K релевантных чанков
↓
Промпт = системная инструкция + найденные чанки + вопрос
↓
LLM генерирует ответ на основе контекста
Сильные стороны RAG
| Преимущество | Описание |
|---|---|
| Актуальность данных | Обновление базы знаний без переобучения — загрузил новый документ, он сразу доступен |
| Прозрачность | Можно показать источники: «Ответ основан на документе X, стр. 14» |
| Стоимость | Не требует GPU для обучения — только API-вызовы к LLM |
| Масштаб данных | Работает с терабайтами документов — база знаний не ограничена контекстным окном |
| Безопасность | Данные остаются в вашей инфраструктуре, в LLM передаются только релевантные фрагменты |
Слабые стороны RAG
| Ограничение | Описание |
|---|---|
| Качество зависит от retrieval | Если поиск не нашёл нужный чанк — модель не ответит, даже если информация есть |
| Латентность | Дополнительный шаг поиска добавляет 200–500 мс к каждому запросу |
| Чанкинг — инженерная задача | Неправильная нарезка документов убивает качество. Таблицы, списки, перекрёстные ссылки — всё требует обработки |
| Не меняет поведение модели | RAG даёт данные, но не учит модель новому стилю, терминологии или формату |
Fine-tuning: переобучаем модель под задачу
Fine-tuning — дообучение весов модели на специализированном датасете. Модель «впитывает» знания, стиль и логику из обучающих примеров.
Методы fine-tuning
| Метод | Суть | Когда использовать |
|---|---|---|
| Full fine-tuning | Обновление всех весов модели | Огромные датасеты, максимальная адаптация |
| LoRA / QLoRA | Обучение только адаптерных матриц (0.1–1% параметров) | Стандартный выбор для бизнеса — баланс качества и стоимости |
| SFT (Supervised Fine-Tuning) | Обучение на парах «вопрос — эталонный ответ» | Когда есть размеченные примеры |
| RLHF / DPO | Обучение с обратной связью от человека | Когда важен тон, безопасность, предпочтения |
Сильные стороны fine-tuning
| Преимущество | Описание |
|---|---|
| Меняет поведение модели | Модель усваивает стиль, терминологию, формат ответов, логику рассуждений |
| Нет зависимости от retrieval | Знания «зашиты» в веса — не нужен поиск по базе |
| Низкая латентность | Ответ генерируется без дополнительного шага поиска |
| Работает с неструктурированными знаниями | Модель может усвоить неявные паттерны, которые сложно найти через поиск |
Слабые стороны fine-tuning
| Ограничение | Описание |
|---|---|
| Стоимость обучения | GPU-часы: LoRA от $50–200, полное дообучение — тысячи долларов |
| Устаревание | При изменении данных нужно переобучать модель |
| Галлюцинации | Модель может «додумывать» факты, особенно на редких запросах |
| Объём данных | Нужно минимум 500–1000 качественных примеров для заметного эффекта |
| Необходима экспертиза | Подготовка датасета, выбор гиперпараметров, оценка качества — нетривиальные задачи |
Сравнение RAG и fine-tuning по критериям
| Критерий | RAG | Fine-tuning |
|---|---|---|
| Стоимость запуска | Низкая ($100–500) | Средняя–высокая ($500–5000+) |
| Время до продакшена | 2–4 недели | 4–8 недель |
| Актуальность данных | Мгновенная (обновил базу) | Требует переобучения |
| Стиль/тон ответов | Не меняет (только промпт) | Полностью адаптирует |
| Прозрачность | Показывает источники | Чёрный ящик |
| Масштаб знаний | Не ограничен | Ограничен объёмом обучения |
| Латентность | +200–500 мс | Без дополнительной задержки |
| Галлюцинации | Снижает (заземляет на факты) | Может усилить на редких запросах |
| Необходимая экспертиза | Средняя (инженерия) | Высокая (ML + данные) |
| Поддержка | Обновление базы знаний | Регулярное переобучение |
Дерево решений: что выбрать
Выбирайте RAG, если:
- Данные часто меняются (документация, регламенты, прайсы, новости)
- Критична прозрачность — нужно показывать источники ответов
- Бюджет ограничен и нужен быстрый запуск
- Объём знаний измеряется тысячами документов
- Важна точность фактов (юридические, медицинские, финансовые данные)
Выбирайте fine-tuning, если:
- Нужен уникальный стиль/тон ответов (бренд-голос, специализированная терминология)
- Задача требует специфической логики рассуждений (не просто поиск фактов)
- Данные стабильны и не меняются еженедельно
- Есть бюджет на подготовку датасета и обучение
- Латентность критична (реалтайм-приложения)
Выбирайте гибрид RAG + fine-tuning, если:
- Нужен и уникальный стиль, и работа с актуальными данными
- Строите продуктовый AI-ассистент для конечных пользователей
- Есть бюджет на оба подхода и команда для поддержки
Гибридный подход: RAG + fine-tuning
На практике лучшие результаты даёт комбинация. Fine-tuned модель лучше понимает контекст из RAG и генерирует ответы в нужном формате.
Архитектура гибрида
Запрос → RAG retrieval → Контекст + Запрос → Fine-tuned LLM → Ответ
Пример: корпоративный ассистент банка. Fine-tuning обучает модель банковской терминологии и формату ответов. RAG подтягивает актуальные тарифы, условия продуктов, регламенты.
Матрица сценариев
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Чат-бот техподдержки | RAG | Ответы основаны на базе знаний, данные часто обновляются |
| Юридический ассистент | RAG | Нужны точные ссылки на законы и документы |
| Бренд-копирайтер | Fine-tuning | Уникальный стиль, тон, голос бренда |
| Медицинский ассистент | RAG + fine-tuning | Специализированная терминология + актуальные данные |
| Анализ договоров | RAG + fine-tuning | Формат вывода + контекст из конкретных документов |
| Внутренний помощник HR | RAG | Отвечает по регламентам и политикам компании |
| Генератор отчётов | Fine-tuning | Специфический формат, шаблоны, стиль |
| Продуктовый ассистент SaaS | RAG + fine-tuning | Знание продукта + стиль общения + актуальная документация |
Стоимость и сроки
| Параметр | RAG | Fine-tuning | Гибрид |
|---|---|---|---|
| MVP (до первого результата) | 2–3 недели | 4–6 недель | 6–8 недель |
| Стоимость MVP | 200–500K ₽ | 300–800K ₽ | 500K–1.2M ₽ |
| Ежемесячная поддержка | 30–80K ₽ | 50–150K ₽ | 80–200K ₽ |
| Основные статьи расходов | Векторная БД, API LLM, инженер | GPU, датасет, ML-инженер | Всё вместе |
Типичные ошибки
-
«Нам точно нужен fine-tuning» — в 70% случаев RAG решает задачу быстрее и дешевле. Начинайте с RAG, переходите к fine-tuning, если RAG не даёт нужного качества.
-
Плохой чанкинг — нарезать документы по 500 токенов и надеяться на лучшее. Инвестируйте в стратегию чанкинга: семантическая нарезка, overlap, сохранение таблиц и списков.
-
Мало данных для fine-tuning — 50 примеров не изменят поведение модели. Минимум 500–1000 качественных пар «вопрос–ответ».
-
Игнорирование оценки качества — без метрик (Faithfulness, Relevancy, BLEU/ROUGE) невозможно понять, работает ли система. Внедрите eval-pipeline с первого дня.
-
Один подход навсегда — бизнес-требования меняются. RAG может перерасти в гибрид, когда появится потребность в уникальном стиле ответов.
Что дальше
Выбор между RAG и fine-tuning — архитектурное решение, которое определяет стоимость, сроки и качество вашего AI-продукта. Ошибка на этом этапе стоит месяцы разработки.
Нужна помощь с выбором и внедрением? Мы в Новаком проектируем и разрабатываем AI-решения: RAG-системы, fine-tuning, AI-агенты.
- Обсудить проект — бесплатная консультация 30 минут, разберём вашу задачу и предложим архитектуру
- IoT + AI решения — если ваш проект на стыке IoT и ИИ