CPX42 · Hetzner · AviZen AI · v2.0

Privacy
Pipeline
Architecture

Локальные модели как анонимизирующий шлюз перед облачными API. Ни Anthropic, ни Moonshot никогда не увидят личные данные пользователей. Hybrid CPU + GPU compute.

DSGVO CompliantZero PII LeakageSemantic Cache Cost OptimizedVast.ai GPU LayerMulti-Tier Routing
01 — Поток данных

Request Pipeline

Каждый запрос проходит четыре слоя. Облако видит только ID и сжатый текст — ноль персональных данных.

👤
ПользовательINPUT

Отправляет запрос. Может содержать имя, email, проектные данные — всё что угодно.

M
Mistral 7B — IntakeFILTER + COMPRESS

Принимает сырой запрос. Удаляет все PII. Присваивает USR-001 / REQ-4821. Сжимает до ≤50 токенов сохраняя 100% смысла. Проверяет Knowledge Base.

PII RemovalSession ID≤50 tokensKB LookupSemantic Search
Cache Hit — Bypass$0 / запрос

Если Similarity ≥ 0.92 — запрос не идёт в Claude или Kimi. Llama отдаёт готовый ответ напрямую. Стоимость = ноль.

Claude 4.6 / Kimi K2.5PROCESSING

Получает только сжатый анонимный запрос. Видит лишь: "USR-001: create website steps". Ноль персональных данных.

Zero PIITier RoutingTask Routing50-token Input
GPU
Vast.ai GPU — Compliance2–4 ч/сутки

Llama 70B на арендованном GPU. Проверяет ответы перед выдачей. Батч embeddings. Ночной fine-tuning. Полностью локально — данные не покидают пайплайн.

Compliance CheckVector BatchFine-tuning~$1–2/день
L
Llama 3.1 8B — OutputFORMAT + STORE

Форматирует в стиле AviZen. Лучший RU/DE вывод. Подставляет имя по ID. Сохраняет REQ_ID ↔ RES_ID в Knowledge Base.

AviZen StyleRU/DE/ENPII RestoreKB Write
Пользователь получает ответOUTPUT

Красиво отформатированный ответ с именем. DSGVO соблюдён автоматически на каждом шаге.

02 — Инфраструктура

Hybrid Compute

CPX42 держит базу 24/7. Vast.ai даёт GPU мощность только когда нужна — без постоянных затрат.

CPX42 — CPU 24/7
Hetzner · постоянный сервер
  • Mistral 7B — Intake Layer
  • Llama 3.1 8B — Output Layer
  • OpenClaw — Оркестратор
  • pgvector — Knowledge Base
  • Redis — Session Store
  • FastAPI — Pipeline Proxy
~€35/мес фиксировано
Vast.ai — GPU 2–4ч/день
On-demand · только когда нужно
  • Llama 70B — Compliance
  • Mixtral 8x7B — сложные задачи
  • Батч embeddings для KB
  • Ночной fine-tuning
  • Аналитика по запросам
  • RTX 4090 ~$0.35/час
~$30–70/мес гибко
03 — Роутинг

Claude vs Kimi

Роутинг по уровню подписки и типу задачи. Максимальное качество при минимальной стоимости.

Free · Basic
Kimi K2.5
↓ Cost Optimized
  • Перевод и саммари
  • Длинные документы
  • Общие вопросы
  • Простой код
  • Free тариф
Pro · Business
Claude 4.6
↑ Quality First
  • Архитектура и стратегия
  • Юридика и финансы
  • Сложный код
  • BauPay транзакции
  • Pro / Business тариф
Cache · Любой тариф
Knowledge Base
$0 / запрос
  • Similarity ≥ 0.92
  • Мгновенный ответ
  • База растёт сама
  • Экономия 40–70%
04 — Память системы

Knowledge Base

Mistral пишет запросы. Llama пишет ответы. Встречаются по ID. Система дешевеет со временем.

┌────────────────────────────────────────────────────────────┐
│                KNOWLEDGE BASE (pgvector)                   │
├────────────────────────────┬───────────────────────────────┤
│  REQUESTS TABLE            │  RESPONSES TABLE              │
│  (пишет Mistral)          │  (пишет Llama)              │
├────────────────────────────┼───────────────────────────────┤
│  req_id:    REQ-4821      │  res_id:    RES-4821         │
│  compressed:"create site" │  quality:   0.98            │
│  vector:    [0.23, 0.84..]│  source:    claude           │
└────────────────────────────┴───────────────────────────────┘

SEMANTIC LOOKUP:
Mistral → cosine_similarity = 0.97 ✓ HIT
Llama отдаёт RES-4821 напрямую → $0.00

НОЧНОЙ COMPLIANCE (Vast.ai GPU):
→ Llama 70B проверяет все ответы за день
→ Fine-tuning Mistral + Llama на реальных данных
    
05 — Технологии

Tech Stack

Всё под контролем. Данные не покидают инфраструктуру AviZen.

🎯
OpenClaw
Оркестратор. Роутинг между всеми слоями.
🌬️
Mistral 7B
Intake. PII удаление, сжатие, KB lookup.
🦙
Llama 3.1 8B
Output. Стиль AviZen, RU/DE форматирование.
Claude 4.6
Pro. Архитектура, код, юридика.
🌙
Kimi K2.5
Cost-opt. Переводы, long context.
🔥
Vast.ai GPU
Compliance + fine-tuning 2–4ч/день.
🗄️
pgvector
Knowledge Base с векторным поиском.
Redis
Session store. USR-ID маппинг.
🔌
FastAPI
Прокси между слоями. REST.
06 — Сборка

Build Order

Каждый этап работает независимо и приносит ценность сразу.

Phase 1
FastAPI скелет pipeline
Базовый поток: User → Mistral → Cloud → Llama → User. Без KB, без сжатия.
Phase 2
Mistral: PII + сжатие
Системный промпт. Тест: 200 токенов → 50 с сохранением смысла на 100%.
Phase 3
pgvector + KB schema
PostgreSQL + pgvector. Таблицы requests / responses. Embeddings.
Phase 4
Llama Output Layer
Промпт стиля AviZen. Восстановление имени по USR-ID. Русский язык.
Phase 5
Роутинг Claude / Kimi
OpenClaw читает уровень подписки. Правила по типу запроса.
Phase 6
Semantic Cache
Mistral проверяет KB перед Cloud. Threshold 0.92. Cache hit = $0.
Phase 7
Vast.ai GPU Integration
Ночной compliance + fine-tuning. Cron запускает GPU, обрабатывает батч, выключает.
07 — Инструкция

Как запустить

Пошаговый гайд по развёртыванию на CPX42.

01

Установи зависимости на CPX42

Подключись по SSH к 204.168.184.210. Убедись что Docker, Ollama и OpenClaw запущены. Проверь через ollama list — должны быть mistral и llama3.1.

02

Запусти PostgreSQL с pgvector

Добавь в docker-compose контейнер pgvector/pgvector:pg16. Создай базу avizen_kb. Выполни CREATE EXTENSION vector;. Создай таблицы requests и responses с полем vector(768).

03

Разверни FastAPI прокси

Создай /opt/avizen-pipeline/main.py. Endpoint POST /query: запрос → Mistral на сжатие → KB → если miss идёт в Claude/Kimi → Llama → ответ пользователю.

04

Системный промпт для Mistral (Intake)

"Получи запрос. Удали все PII. Присвой ID. Сожми до 50 токенов сохраняя 100% смысла. Верни JSON: {id, compressed, has_pii}"

05

Системный промпт для Llama (Output)

"Форматируй ответы в стиле AviZen. Чёткая структура, профессиональный тон. Язык = язык исходного запроса. Замени USER_ID на имя если передано."

06

Роутинг в OpenClaw

В openclaw.json: подписка free → Kimi, подписка pro/business → Claude. Типы задач code / legal / finance → всегда Claude.

07

Vast.ai — ночной compliance

На vast.ai создай шаблон RTX 4090 + образ ollama/ollama. Cron job в 02:00: запускает инстанс → обрабатывает батч из KB → обновляет quality scores → выключает.

01

Abhängigkeiten auf CPX42 installieren

Per SSH mit 204.168.184.210 verbinden. Sicherstellen dass Docker, Ollama und OpenClaw laufen. Mit ollama list prüfen — mistral und llama3.1 müssen vorhanden sein.

02

PostgreSQL mit pgvector starten

Container pgvector/pgvector:pg16 hinzufügen. Datenbank avizen_kb erstellen. CREATE EXTENSION vector; ausführen. Tabellen mit Feld vector(768) anlegen.

03

FastAPI-Proxy deployen

Datei /opt/avizen-pipeline/main.py. Endpoint POST /query: Anfrage → Mistral → KB → bei Miss an Claude/Kimi → Llama → Antwort.

04

System-Prompt für Mistral (Intake)

"Erhalte Anfrage. Entferne alle PII. ID vergeben. Auf max. 50 Token komprimieren. JSON: {id, compressed, has_pii}"

05

System-Prompt für Llama (Output)

"Formatiere im AviZen-Stil. Klare Struktur, professioneller Ton. Sprache der Anfrage. USER_ID durch Namen ersetzen."

06

Routing in OpenClaw

In openclaw.json: Abo free → Kimi, pro/business → Claude. Aufgaben code / legal / finance → immer Claude.

07

Vast.ai — nächtliches Compliance

Template RTX 4090 + Image ollama/ollama. Cron um 02:00: Instanz starten → Batch verarbeiten → Quality-Scores aktualisieren → Instanz beenden.