Privacy
Pipeline
Architecture
Локальные модели как анонимизирующий шлюз перед облачными API. Ни Anthropic, ни Moonshot никогда не увидят личные данные пользователей. Hybrid CPU + GPU compute.
Request Pipeline
Каждый запрос проходит четыре слоя. Облако видит только ID и сжатый текст — ноль персональных данных.
Отправляет запрос. Может содержать имя, email, проектные данные — всё что угодно.
Принимает сырой запрос. Удаляет все PII. Присваивает USR-001 / REQ-4821. Сжимает до ≤50 токенов сохраняя 100% смысла. Проверяет Knowledge Base.
Если Similarity ≥ 0.92 — запрос не идёт в Claude или Kimi. Llama отдаёт готовый ответ напрямую. Стоимость = ноль.
Получает только сжатый анонимный запрос. Видит лишь: "USR-001: create website steps". Ноль персональных данных.
Llama 70B на арендованном GPU. Проверяет ответы перед выдачей. Батч embeddings. Ночной fine-tuning. Полностью локально — данные не покидают пайплайн.
Форматирует в стиле AviZen. Лучший RU/DE вывод. Подставляет имя по ID. Сохраняет REQ_ID ↔ RES_ID в Knowledge Base.
Красиво отформатированный ответ с именем. DSGVO соблюдён автоматически на каждом шаге.
Hybrid Compute
CPX42 держит базу 24/7. Vast.ai даёт GPU мощность только когда нужна — без постоянных затрат.
- Mistral 7B — Intake Layer
- Llama 3.1 8B — Output Layer
- OpenClaw — Оркестратор
- pgvector — Knowledge Base
- Redis — Session Store
- FastAPI — Pipeline Proxy
- Llama 70B — Compliance
- Mixtral 8x7B — сложные задачи
- Батч embeddings для KB
- Ночной fine-tuning
- Аналитика по запросам
- RTX 4090 ~$0.35/час
Claude vs Kimi
Роутинг по уровню подписки и типу задачи. Максимальное качество при минимальной стоимости.
- Перевод и саммари
- Длинные документы
- Общие вопросы
- Простой код
- Free тариф
- Архитектура и стратегия
- Юридика и финансы
- Сложный код
- BauPay транзакции
- Pro / Business тариф
- Similarity ≥ 0.92
- Мгновенный ответ
- База растёт сама
- Экономия 40–70%
Knowledge Base
Mistral пишет запросы. Llama пишет ответы. Встречаются по ID. Система дешевеет со временем.
┌────────────────────────────────────────────────────────────┐ │ KNOWLEDGE BASE (pgvector) │ ├────────────────────────────┬───────────────────────────────┤ │ REQUESTS TABLE │ RESPONSES TABLE │ │ (пишет Mistral) │ (пишет Llama) │ ├────────────────────────────┼───────────────────────────────┤ │ req_id: REQ-4821 │ res_id: RES-4821 │ │ compressed:"create site" │ quality: 0.98 │ │ vector: [0.23, 0.84..]│ source: claude │ └────────────────────────────┴───────────────────────────────┘ SEMANTIC LOOKUP: Mistral → cosine_similarity = 0.97 ✓ HIT Llama отдаёт RES-4821 напрямую → $0.00 НОЧНОЙ COMPLIANCE (Vast.ai GPU): → Llama 70B проверяет все ответы за день → Fine-tuning Mistral + Llama на реальных данных
Tech Stack
Всё под контролем. Данные не покидают инфраструктуру AviZen.
Build Order
Каждый этап работает независимо и приносит ценность сразу.
Как запустить
Пошаговый гайд по развёртыванию на CPX42.
Установи зависимости на CPX42
Подключись по SSH к 204.168.184.210. Убедись что Docker, Ollama и OpenClaw запущены. Проверь через ollama list — должны быть mistral и llama3.1.
Запусти PostgreSQL с pgvector
Добавь в docker-compose контейнер pgvector/pgvector:pg16. Создай базу avizen_kb. Выполни CREATE EXTENSION vector;. Создай таблицы requests и responses с полем vector(768).
Разверни FastAPI прокси
Создай /opt/avizen-pipeline/main.py. Endpoint POST /query: запрос → Mistral на сжатие → KB → если miss идёт в Claude/Kimi → Llama → ответ пользователю.
Системный промпт для Mistral (Intake)
"Получи запрос. Удали все PII. Присвой ID. Сожми до 50 токенов сохраняя 100% смысла. Верни JSON: {id, compressed, has_pii}"
Системный промпт для Llama (Output)
"Форматируй ответы в стиле AviZen. Чёткая структура, профессиональный тон. Язык = язык исходного запроса. Замени USER_ID на имя если передано."
Роутинг в OpenClaw
В openclaw.json: подписка free → Kimi, подписка pro/business → Claude. Типы задач code / legal / finance → всегда Claude.
Vast.ai — ночной compliance
На vast.ai создай шаблон RTX 4090 + образ ollama/ollama. Cron job в 02:00: запускает инстанс → обрабатывает батч из KB → обновляет quality scores → выключает.
Abhängigkeiten auf CPX42 installieren
Per SSH mit 204.168.184.210 verbinden. Sicherstellen dass Docker, Ollama und OpenClaw laufen. Mit ollama list prüfen — mistral und llama3.1 müssen vorhanden sein.
PostgreSQL mit pgvector starten
Container pgvector/pgvector:pg16 hinzufügen. Datenbank avizen_kb erstellen. CREATE EXTENSION vector; ausführen. Tabellen mit Feld vector(768) anlegen.
FastAPI-Proxy deployen
Datei /opt/avizen-pipeline/main.py. Endpoint POST /query: Anfrage → Mistral → KB → bei Miss an Claude/Kimi → Llama → Antwort.
System-Prompt für Mistral (Intake)
"Erhalte Anfrage. Entferne alle PII. ID vergeben. Auf max. 50 Token komprimieren. JSON: {id, compressed, has_pii}"
System-Prompt für Llama (Output)
"Formatiere im AviZen-Stil. Klare Struktur, professioneller Ton. Sprache der Anfrage. USER_ID durch Namen ersetzen."
Routing in OpenClaw
In openclaw.json: Abo free → Kimi, pro/business → Claude. Aufgaben code / legal / finance → immer Claude.
Vast.ai — nächtliches Compliance
Template RTX 4090 + Image ollama/ollama. Cron um 02:00: Instanz starten → Batch verarbeiten → Quality-Scores aktualisieren → Instanz beenden.