Техническое задание на разработку платформы для поиска по корпоративным данным с использованием LLM-моделей

1. Введение

1.1. Назначение документа

Настоящее техническое задание (ТЗ) описывает требования к разработке платформы для семантического поиска и обработки корпоративных данных с использованием LLM (Large Language Models) и RAG (Retrieval-Augmented Generation).

1.2. Цель проекта

Создание системы, которая:

Индексирует корпоративные данные из BookStack и других источников.
Обеспечивает поиск и генерацию ответов на основе LLM (ChatGPT, YandexGPT, GigaChat).
Интегрируется с Bitrix24 через чат-бота.
Предоставляет интерфейсы для управления и загрузки данных.

2. Описание системы

2.1. Функциональные требования

2.1.1. Загрузка и обработка данных

Поддержка форматов: PDF, DOCX, TXT, XML, JSON, YAML, MD, MDX, HTML, XLS, CSV.
Загрузка через BookStack (webhook) или отдельный интерфейс платформы.
Разделение документов на чанки и их векторизация.
Хранение в векторной БД (Weaviate или PostgreSQL с pgvector).

2.1.2. Поиск и генерация ответов

Прием запросов через API или чат-интерфейс.
RAG-поиск: извлечение релевантных чанков из БД.
Генерация ответов с использованием выбранной LLM (ChatGPT, YandexGPT, GigaChat).

2.1.3. Интерфейсы

Админ-панель: управление настройками, моделями, источниками данных.
Интерфейс загрузки файлов: ручная загрузка документов в векторную БД.
Веб-чат: тестирование и проверка работы системы.
Чат-бот для Bitrix24: интеграция через API Bitrix.

2.2. Нефункциональные требования

Производительность: время ответа ≤ 3 сек.
Масштабируемость: поддержка > 10 000 документов.
Безопасность: аутентификация (OAuth2, API-ключи), разграничение прав.
Поддержка LLM: возможность добавления новых моделей.

3. Архитектура

3.1. Компоненты системы

BookStack (или аналог): хранение исходных документов.
Maker-GPT (ядро системы):
- API для обработки запросов.
- Интеграция с векторной БД.
- Подключение к LLM.
Векторная БД: Weaviate / PostgreSQL (pgvector).
Интерфейсы:
- Админ-панель (Vue).
- Веб-чат (Vue).
- Bitrix24-бот (REST API).

3.2. Схема взаимодействия

graph TD
    A[BookStack] -->|Webhook| B[Maker-GPT]
    C[Файлы] -->|Загрузка| B
    B -->|Векторизация| D[Weaviate/PostgreSQL]
    E[Пользователь] -->|Запрос| F[API/Чат]
    F --> B -->|RAG + LLM| G[Ответ]
    B -->|Интеграция| H[Bitrix24]

4. Технологический стек

Backend: Node.js, MongoDB .
Векторная БД: Weaviate / PostgreSQL + pgvector.
LLM-интеграция: OpenAI API, YandexGPT API, GigaChat API.
Фронтенд: Vue.
DevOps: Docker.

5. Трудозатраты и сроки

Этап	Описание	Срок (нед.)	Трудозатраты (ч)
1	Интеграция с BookStack и векторной БД	3	100
2	Разработка интерфейсов (админка, чат)	3	100
3	Интеграция с Bitrix24	2	80
4	Тестирование и доработки	2	60
Итого		10 недель	340 часов

6. Ожидаемые результаты

Рабочая платформа с RAG-поиском на корпоративных данных.
Интеграция с BookStack и Bitrix24.
Админ-панель, интерфейс загрузки файлов, веб-чат.
Документация и инструкции по развертыванию.

7. Дополнительные требования

Документирование API (Swagger).
Логирование и мониторинг (Prometheus).
Резервное копирование данных стредствами ОС.

Исполнитель: ООО 1Концепт
Заказчик: _______________ Дата: 24.03.2025

Подписи:
_________________________ (Заказчик)
_________________________ (Исполнитель)

5.7 KiB Raw Blame History Unescape Escape