Построение системы рекомендаций дополнительных покупок (cross-sell / upsell) для **B2B-портала**

1. **Ключевые параметры и данные**  
2. **Вопросы бизнесу**
3. **Математические модели и подходы** (включая ML и ИИ)  
4. **Как внедрить ИИ** и какие архитектурные решения возможны  
5. **Ограничения и особенности B2B + пищевой сегмент**

---

## 🔹 1. Необходимые параметры и данные

Для построения эффективной системы рекомендаций потребуется **структурированный доступ к следующим данным**:

### A. Данные о клиентах
- Уникальный ID клиента
- Тип клиента: ресторан, магазин, производитель, дистрибьютор и т.д.
- Геолокация (город, регион)
- Объём закупок (ежемесячный/ежеквартальный)
- Частота заказов
- Сегмент (например: HORECA, retail, FMCG)
- Предпочтения (если есть: веган, органик, безглютен и т.п.)

### B. Данные о товарах
- Артикул / SKU
- Название, категория (молочка, мясо, напитки и т.д.)
- Подкатегория (например: сыр — твёрдый, мягкий)
- Бренд
- Упаковка (вес, объём, шт.)
- Срок годности
- Температурный режим хранения
- Сезонность (например: майонез летом, глинтвейн зимой)
- Цена, закупочная цена
- Признаки: органик, безглютен, веган, ГМО и т.п.

### C. История покупок
- ID клиента
- ID товара
- Количество
- Дата покупки
- Сумма
- Скидка
- Промо-акция (если участвовал)
- Был ли в заказе впервые / повторно

### D. Складские остатки и логистика
- Остатки по складам
- Дата ближайшей поставки
- Лимиты на отгрузку (например, минимальный объём)
- Доступность товара по региону

### E. Дополнительные данные (опционально, но полезно)
- Время года / сезон
- Акции и промо
- Ценовые изменения
- Конкурирующие товары
- Рейтинги / отзывы (если есть)

---

## 🔹 2. Ключевые вопросы к бизнесу

Перед началом проекта важно согласовать:

1. **Какова цель системы?**
   - Увеличение среднего чека?
   - Продажа излишков на складе?
   - Введение новых продуктов?
   - Перекрестные продажи (cross-sell)?
   - Удержание клиента?

2. **Какие ограничения есть?**
   - Нельзя рекомендовать скоропортящиеся товары?
   - Есть ли логистические ограничения?
   - Можно ли рекомендовать товары, которых нет на складе?

3. **Как клиенты принимают решения?**
   - Закупают по списку?
   - Реагируют на акции?
   - Любят пробовать новинки?

4. **Какой канал рекомендаций?**
   - В интерфейсе корзины?
   - На главной странице?
   - Через email / push?
   - В мобильном приложении?

5. **Как измерять успех?**
   - CTR по рекомендациям?
   - Конверсия в покупку?
   - Увеличение AOV (average order value)?

6. **Как часто обновляются рекомендации?**
   - Реальное время?
   - Раз в день?
   - По расписанию?

---

## 🔹 3. Математические модели и подходы

### ✅ 1. **Collaborative Filtering (CF)**

**Идея:** "Клиенты, похожие на тебя, купили X"

- **User-based CF**: Найти похожих клиентов → рекомендовать их покупки
- **Item-based CF**: Найти товары, которые часто покупают вместе
- **Матрица "клиент-товар"**: разреженная, заполняется количеством / частотой покупок

🔹 Плюсы: работает без знания признаков товаров  
🔹 Минусы: холодный старт, плохо масштабируется

🔧 Можно использовать **SVD, ALS, NMF** для разложения матрицы

---

### ✅ 2. **Ассоциативные правила (Apriori, FP-Growth)**

**Идея:** "Кто купил A и B — часто покупает C"

- Правила вида: `{молоко, хлеб} → {масло}`
- Метрики: поддержка (support), достоверность (confidence), подъём (lift)

🔹 Отлично подходит для **cross-sell**
🔹 Интерпретируемо
🔹 Учитывает частые комбинации

⚠️ Может выдавать слишком много правил → нужна фильтрация

---

### ✅ 3. **Content-Based Filtering**

**Идея:** Рекомендуем товары, похожие на те, что клиент уже покупал

- Признаки товара: категория, бренд, вес, тип и т.д.
- Векторизация товаров (TF-IDF, эмбеддинги)
- Сравнение с историей покупок

🔹 Хорошо работает при холодном старте товара  
🔹 Можно использовать, если мало данных о клиентах

---

### ✅ 4. **Гибридные модели**

Сочетание нескольких подходов:

- CF + Content-Based
- Apriori + складские остатки
- ML-модель, взвешивающая разные сигналы

Пример:  
> Рекомендовать товары, которые:
> - часто покупают с текущим (Apriori)
> - похожи на предыдущие (Content-Based)
> - есть на складе
> - подходят по цене и категории клиента

---

### ✅ 5. **Модели на основе машинного обучения (ML)**

#### A. **Learning to Rank (LTR)**

- Формулируем задачу как **ранжирование** товаров
- Для каждого клиента и сессии: какие товары показать в топе?

**Признаки (features):**
- Частота покупки товара клиентом
- Совместная покупка с текущим товаром
- Расстояние от последней покупки
- Остатки на складе
- Цена / маржа
- Сезонность
- Принадлежность к акции
- Похожесть по категориям
- Время до конца срока годности

**Модели:**
- **XGBoost, LightGBM, CatBoost** — отлично подходят для LTR
- Можно использовать **LambdaMART** (специализированная модель LTR)

#### B. **Embeddings (нейросети)**

- Обучить **эмбеддинги** для клиентов и товаров (например, через Word2Vec по последовательностям покупок)
- Найти ближайшие товары по вектору
- Использовать **autoencoders** или **VAE** для рекомендаций

Пример:  
> Последовательность покупок: [молоко, сыр, колбаса] → вектор → найти ближайший товар: масло

---

### ✅ 6. **Sequence-based модели (RNN, Transformers)**

- Если важна **последовательность** покупок
- Модель предсказывает: "что купит клиент дальше?"

**Примеры:**
- GRU4Rec
- SASRec (Self-Attention Sequential Recommendation)
- BERT4Rec

🔹 Подходит, если клиенты делают регулярные заказы по шаблону

---

## 🔹 4. Применение ИИ?

1. **Кластеризация клиентов (unsupervised ML)**
   - K-means, DBSCAN, t-SNE
   - Сегментация: "закупаются раз в месяц", "любят органику", "закупают оптом"

2. **Прогнозирование спроса**
   - LSTM, Prophet, ARIMA
   - Чтобы понимать, какие товары скоро будут в дефиците

3. **Генерация рекомендаций через deep learning**
   - Использовать **графовые нейросети (GNN)**, если строишь граф "клиент-товар-категория"
   - **Multi-armed bandit** — для баланса между эксплуатацией (известные рекомендации) и исследованием (новые товары)

4. **Персонализация через reinforcement learning (RL)**
   - Модель учится на действиях клиента: кликнул / купил / проигнорировал
   - Оптимизирует долгосрочную прибыль

---

## 🔹 5. Особенности B2B + пищевой сегмент

| Фактор | Особенность |
|-------|-------------|
| **Объём закупок** | Большие партии → важно учитывать минимальные объёмы |
| **Частота заказов** | Регулярные → можно строить прогнозы |
| **Скоропортящиеся товары** | Нельзя рекомендовать просрочку или с коротким сроком |
| **Логистика** | Рекомендации должны учитывать регион и склад |
| **Ценовая чувствительность** | Клиенты могут быть чувствительны к цене и скидкам |
| **Сезонность** | Высокая (новогодние наборы, летние продукты и т.д.) |

---

## 🔹 6. Архитектура системы (упрощённо)

```
[История заказов] → [ETL] → [Фичи: частота, совместные покупки, остатки]
                             ↓
[Модель: Apriori / XGBoost / Embeddings] → [Ранжирование]
                             ↓
[Фильтрация: склад, срок годности, логистика] → [Рекомендации]
                             ↓
[API] → [Фронтенд: "Вам также может понадобиться"]
```

---

## 🔹 7. Поэтапное внедрение

1. **MVP: Apriori + простые правила**
   - "Часто покупают вместе"
   - Фильтр по наличию на складе

2. **Версия 2: Персонализация**
   - Collaborative filtering
   - Учёт истории клиента

3. **Версия 3: ML-модель (XGBoost + LTR)**
   - Ранжирование с учётом множества факторов

4. **Версия 4: Deep Learning / Sequence модели**
   - Учёт временных паттернов

5. **A/B тестирование** на каждом этапе

---

## 🔚 Итого


1. **Начать с ассоциативных правил (Apriori / FP-Growth)** — быстро, интерпретируемо, эффективно для cross-sell.
2. **Добавить учёт складских остатков и срока годности** — критично для пищевой отрасли.
3. **Перейти к гибридной модели** с XGBoost/LightGBM, ранжирующей товары по персонализированным признакам.
4. **Использовать embeddings или sequence модели**, если есть данные о последовательностях заказов.
5. **Внедрить A/B тесты** и измеряй бизнес-метрики.