CPX42 · Hetzner · AviZen AI · v2.0

Privacy
Pipeline
Architecture

Локальные модели как анонимизирующий шлюз перед облачными API. Ни Anthropic, ни Moonshot никогда не увидят личные данные пользователей. Hybrid CPU + GPU compute.

DSGVO CompliantZero PII LeakageSemantic Cache Cost OptimizedVast.ai GPU LayerMulti-Tier Routing

01 — Поток данных

Request Pipeline

Каждый запрос проходит четыре слоя. Облако видит только ID и сжатый текст — ноль персональных данных.

👤

ПользовательINPUT

Отправляет запрос. Может содержать имя, email, проектные данные — всё что угодно.

Mistral 7B — IntakeFILTER + COMPRESS

Принимает сырой запрос. Удаляет все PII. Присваивает USR-001 / REQ-4821. Сжимает до ≤50 токенов сохраняя 100% смысла. Проверяет Knowledge Base.

PII RemovalSession ID≤50 tokensKB LookupSemantic Search

⚡

Cache Hit — Bypass$0 / запрос

Если Similarity ≥ 0.92 — запрос не идёт в Claude или Kimi. Llama отдаёт готовый ответ напрямую. Стоимость = ноль.

☁

Claude 4.6 / Kimi K2.5PROCESSING

Получает только сжатый анонимный запрос. Видит лишь: "USR-001: create website steps". Ноль персональных данных.

Zero PIITier RoutingTask Routing50-token Input

GPU

Vast.ai GPU — Compliance2–4 ч/сутки

Llama 70B на арендованном GPU. Проверяет ответы перед выдачей. Батч embeddings. Ночной fine-tuning. Полностью локально — данные не покидают пайплайн.

Compliance CheckVector BatchFine-tuning~$1–2/день

Llama 3.1 8B — OutputFORMAT + STORE

Форматирует в стиле AviZen. Лучший RU/DE вывод. Подставляет имя по ID. Сохраняет REQ_ID ↔ RES_ID в Knowledge Base.

AviZen StyleRU/DE/ENPII RestoreKB Write

✓

Пользователь получает ответOUTPUT

Красиво отформатированный ответ с именем. DSGVO соблюдён автоматически на каждом шаге.

02 — Инфраструктура

Hybrid Compute

CPX42 держит базу 24/7. Vast.ai даёт GPU мощность только когда нужна — без постоянных затрат.

CPX42 — CPU 24/7

Hetzner · постоянный сервер

Mistral 7B — Intake Layer
Llama 3.1 8B — Output Layer
OpenClaw — Оркестратор
pgvector — Knowledge Base
Redis — Session Store
FastAPI — Pipeline Proxy

~€35/мес фиксировано

Vast.ai — GPU 2–4ч/день

On-demand · только когда нужно

Llama 70B — Compliance
Mixtral 8x7B — сложные задачи
Батч embeddings для KB
Ночной fine-tuning
Аналитика по запросам
RTX 4090 ~$0.35/час

~$30–70/мес гибко

03 — Роутинг

Claude vs Kimi

Роутинг по уровню подписки и типу задачи. Максимальное качество при минимальной стоимости.

Free · Basic

Kimi K2.5

↓ Cost Optimized

Перевод и саммари
Длинные документы
Общие вопросы
Простой код
Free тариф

Pro · Business

Claude 4.6

↑ Quality First

Архитектура и стратегия
Юридика и финансы
Сложный код
BauPay транзакции
Pro / Business тариф

Cache · Любой тариф

Knowledge Base

$0 / запрос

Similarity ≥ 0.92
Мгновенный ответ
База растёт сама
Экономия 40–70%

04 — Память системы

Knowledge Base

Mistral пишет запросы. Llama пишет ответы. Встречаются по ID. Система дешевеет со временем.

┌────────────────────────────────────────────────────────────┐
│                KNOWLEDGE BASE (pgvector)                   │
├────────────────────────────┬───────────────────────────────┤
│  REQUESTS TABLE            │  RESPONSES TABLE              │
│  (пишет Mistral)          │  (пишет Llama)              │
├────────────────────────────┼───────────────────────────────┤
│  req_id:    REQ-4821      │  res_id:    RES-4821         │
│  compressed:"create site" │  quality:   0.98            │
│  vector:    [0.23, 0.84..]│  source:    claude           │
└────────────────────────────┴───────────────────────────────┘

SEMANTIC LOOKUP:
Mistral → cosine_similarity = 0.97 ✓ HIT
Llama отдаёт RES-4821 напрямую → $0.00

НОЧНОЙ COMPLIANCE (Vast.ai GPU):
→ Llama 70B проверяет все ответы за день
→ Fine-tuning Mistral + Llama на реальных данных

05 — Технологии

Tech Stack

Всё под контролем. Данные не покидают инфраструктуру AviZen.

🎯

OpenClaw

Оркестратор. Роутинг между всеми слоями.

🌬️

Mistral 7B

Intake. PII удаление, сжатие, KB lookup.

🦙

Llama 3.1 8B

Output. Стиль AviZen, RU/DE форматирование.

⚡

Claude 4.6

Pro. Архитектура, код, юридика.

🌙

Kimi K2.5

Cost-opt. Переводы, long context.

🔥

Vast.ai GPU

Compliance + fine-tuning 2–4ч/день.

🗄️

pgvector

Knowledge Base с векторным поиском.

⚡

Redis

Session store. USR-ID маппинг.

🔌

FastAPI

Прокси между слоями. REST.

06 — Сборка

Build Order

Каждый этап работает независимо и приносит ценность сразу.

Phase 1

FastAPI скелет pipeline

Базовый поток: User → Mistral → Cloud → Llama → User. Без KB, без сжатия.

Phase 2

Mistral: PII + сжатие

Системный промпт. Тест: 200 токенов → 50 с сохранением смысла на 100%.

Phase 3

pgvector + KB schema

PostgreSQL + pgvector. Таблицы requests / responses. Embeddings.

Phase 4

Llama Output Layer

Промпт стиля AviZen. Восстановление имени по USR-ID. Русский язык.

Phase 5

Роутинг Claude / Kimi

OpenClaw читает уровень подписки. Правила по типу запроса.

Phase 6

Semantic Cache

Mistral проверяет KB перед Cloud. Threshold 0.92. Cache hit = $0.

Phase 7

Vast.ai GPU Integration

Ночной compliance + fine-tuning. Cron запускает GPU, обрабатывает батч, выключает.

07 — Инструкция

Как запустить

Пошаговый гайд по развёртыванию на CPX42.

Установи зависимости на CPX42

Подключись по SSH к 204.168.184.210. Убедись что Docker, Ollama и OpenClaw запущены. Проверь через ollama list — должны быть mistral и llama3.1.

Запусти PostgreSQL с pgvector

Добавь в docker-compose контейнер pgvector/pgvector:pg16. Создай базу avizen_kb. Выполни CREATE EXTENSION vector;. Создай таблицы requests и responses с полем vector(768).

Разверни FastAPI прокси

Создай /opt/avizen-pipeline/main.py. Endpoint POST /query: запрос → Mistral на сжатие → KB → если miss идёт в Claude/Kimi → Llama → ответ пользователю.

Системный промпт для Mistral (Intake)

"Получи запрос. Удали все PII. Присвой ID. Сожми до 50 токенов сохраняя 100% смысла. Верни JSON: {id, compressed, has_pii}"

Системный промпт для Llama (Output)

"Форматируй ответы в стиле AviZen. Чёткая структура, профессиональный тон. Язык = язык исходного запроса. Замени USER_ID на имя если передано."

Роутинг в OpenClaw

В openclaw.json: подписка free → Kimi, подписка pro/business → Claude. Типы задач code / legal / finance → всегда Claude.

Vast.ai — ночной compliance

На vast.ai создай шаблон RTX 4090 + образ ollama/ollama. Cron job в 02:00: запускает инстанс → обрабатывает батч из KB → обновляет quality scores → выключает.

Abhängigkeiten auf CPX42 installieren

Per SSH mit 204.168.184.210 verbinden. Sicherstellen dass Docker, Ollama und OpenClaw laufen. Mit ollama list prüfen — mistral und llama3.1 müssen vorhanden sein.

PostgreSQL mit pgvector starten

Container pgvector/pgvector:pg16 hinzufügen. Datenbank avizen_kb erstellen. CREATE EXTENSION vector; ausführen. Tabellen mit Feld vector(768) anlegen.

FastAPI-Proxy deployen

Datei /opt/avizen-pipeline/main.py. Endpoint POST /query: Anfrage → Mistral → KB → bei Miss an Claude/Kimi → Llama → Antwort.

System-Prompt für Mistral (Intake)

"Erhalte Anfrage. Entferne alle PII. ID vergeben. Auf max. 50 Token komprimieren. JSON: {id, compressed, has_pii}"

System-Prompt für Llama (Output)

"Formatiere im AviZen-Stil. Klare Struktur, professioneller Ton. Sprache der Anfrage. USER_ID durch Namen ersetzen."

Routing in OpenClaw

In openclaw.json: Abo free → Kimi, pro/business → Claude. Aufgaben code / legal / finance → immer Claude.

Vast.ai — nächtliches Compliance

Template RTX 4090 + Image ollama/ollama. Cron um 02:00: Instanz starten → Batch verarbeiten → Quality-Scores aktualisieren → Instanz beenden.

PrivacyPipelineArchitecture

Request Pipeline

Hybrid Compute

Claude vs Kimi

Knowledge Base

Tech Stack

Build Order

Как запустить

Установи зависимости на CPX42

Запусти PostgreSQL с pgvector

Разверни FastAPI прокси

Системный промпт для Mistral (Intake)

Системный промпт для Llama (Output)

Роутинг в OpenClaw

Vast.ai — ночной compliance

Abhängigkeiten auf CPX42 installieren

PostgreSQL mit pgvector starten

FastAPI-Proxy deployen

System-Prompt für Mistral (Intake)

System-Prompt für Llama (Output)

Routing in OpenClaw

Vast.ai — nächtliches Compliance

Privacy
Pipeline
Architecture