// genai · platforms · agents

Строю GenAI‑платформы, которые доходят до продаBuilding GenAI platforms that ship

Q: Кодишь сам или только консультируешь?

Кодю — особенно на спринтах архитектуры и build & handover. Делал review десятков LLM-pipeline-ов, RAG-систем и агентских фреймворков.

Q: RAG или fine-tune?

Сначала RAG — почти всегда. Fine-tune только когда измерили потолок RAG на задаче.

От RAG-прототипа до LLM-платформы на OKD. Без воды, без длинных дискавери, без «давайте сначала проведём воркшоп».From RAG prototype to LLM platform on OKD. No fluff, no months-long discovery, no "let's start with a workshop".

Enterprise-версия →Enterprise version →

// stack.ts · 2026
const stack = {
  models: ['Claude 4', 'GPT-5', 'Llama 4', 'Qwen 3'],
  agents: 'LangGraph + MCP',
  serving: 'vLLM + SGLang on OKD',
  platform: 'internal AI Dev Platform',
  impact: 200_000_000 // ₽ / year
};
export const ship = 'production';

// formats

Три формата — все про продThree engagement modes — all about prod

Никаких «стратегических презентаций ради презентации». Каждый формат заканчивается работающим кодом, платформой или системой.No "strategic decks for the deck's sake". Every format ends with working code, platform, or system.

// architecture_sprint

Архитектурный спринтArchitecture sprint

2 недели. Архитектура LLM-платформы / RAG-системы / AI-агента. На выходе: ADR-ы, схемы, прототип ключевого пути.2 weeks. Architecture for an LLM platform / RAG system / AI agent. Output: ADRs, diagrams, key-path prototype.

2w · фикс2w · fixed

// fractional_cto

Fractional CTOFractional CTO

Регулярная работа с технической командой и founder-ами. Стратегия, hiring, ревью кода и архитектур, эскалации. 2–4 дня в месяц.Ongoing work with engineering team and founders. Strategy, hiring, code & architecture reviews, escalations. 2–4 days/month.

long-term · по часамlong-term · hourly

// build_and_handover

Build & handoverBuild & handover

3–6 месяцев. Совместно с командой строим LLM-платформу или ключевой AI-продукт, потом передаём с документацией и runbook-ами.3–6 months. Jointly build an LLM platform or core AI product with the team, then hand it over with docs and runbooks.

3–6m · milestone3–6m · milestone

// audit_and_enablement

Замер, метрики и командаAudit, metrics and team

Не всегда нужна целая платформа. Иногда нужно: померить дев-скорость, нарисовать метрики adoption, придумать матрицы компетенций под найм AI-инженеров.You don't always need a full platform. Sometimes you just need: measure dev velocity, design adoption metrics, build competency matrices for AI-engineer hiring.

// dev_benchmark

Бенчмаркинг разработкиDev benchmarking

DORA + AI-specific метрики: lead time, deployment frequency, AI-coverage в IDE / CI / review. Сравнение с peer-группой. Выход: гэпы и quick wins.DORA + AI-specific metrics: lead time, deployment frequency, AI coverage in IDE / CI / review. Peer comparison. Output: gaps and quick wins.

3w · фикс3w · fixed

// platform_metrics

Метрики AI-платформыAI platform metrics

Дизайн системы измерений adoption / quality / cost / impact. Langfuse + OpenTelemetry, дашборды в Grafana, отчёт для founder / CTO.Adoption / quality / cost / impact measurement system. Langfuse + OpenTelemetry, Grafana dashboards, founder/CTO-grade reporting.

4w · artifact + dashboards4w · artifact + dashboards

// hiring_matrix

Матрицы компетенцийCompetency matrices

Профили AI-ролей под ваш стек: TLM, MLE, AI-разработчик, prompt-инженер. Грейды, скрипты собесов, план онбординга. Готово к отдаче HR.AI role profiles for your stack: TLM, MLE, AI engineer, prompt engineer. Grades, interview scripts, onboarding plan. HR-ready.

2w · templates2w · templates

// stack

Что использую в реальных проектахWhat I use in real projects

Не «универсальный список из любого блога», а инструменты, которые я лично катал в прод и могу аргументированно защитить.Not "the usual blog post list" — tools I've personally shipped to prod and can defend on the merits.

// llms · 2026

Claude 4 Opus / SonnetGPT-5Gemini 2.5 ProLlama 4 (Scout / Maverick)Qwen 3DeepSeek V3 / R1Mistral Large 2

// inference & serving

vLLMSGLangTensorRT-LLMOllamallama.cpp

// agents & frameworks

LangGraphMCPOpenAI Agents SDKCrewAILlamaIndexDSPy 3Pydantic AI

// platform & ops

OKD / OpenShiftArgoCDKafkaDagsterMLflowLangfuseLangSmith

// data & vectors

PostgreSQL + pgvectorQdrantWeaviateLanceDBClickHouseS3 / MinIO

// case_study

AI Dev Platform для 1000+ инженеровAI Dev Platform for 1000+ engineers

Внутренним порталом + LLM-gateway превратили GenAI из «у каждой команды свой ChatGPT-Pro» в управляемую платформу с governance, наблюдаемостью и метриками.An internal portal + LLM gateway turned GenAI from "every team's own ChatGPT Pro" into a managed platform with governance, observability and metrics.

+30% к скорости разработки. Без багов в проде.+30% dev velocity. No prod bugs.

Подключили AI-помощников к жизненному циклу разработчика: code-review, генерация тестов, поиск по корпоративной базе знаний, ассистенты для bug-triage и release-notes.Plugged AI assistants into the developer lifecycle: code review, test generation, corporate knowledge search, bug-triage assistants, release-notes generation.

Все вызовы — через единый gateway: квоты, аудит, утечки PII, fallback на open-source модели.All calls go through a single gateway: quotas, audit, PII leak protection, fallback to open-source models.

ai-dev-platform/
├── portal/              # internal dev hub
├── gateway/
│   ├── auth (oidc)
│   ├── quota (per-team)
│   └── pii-filter
├── llms/
│   ├── claude / gpt     (cloud)
│   └── llama / qwen     (vllm)
├── rag/                 # corp kb
├── agents/              # review, qa
└── obs/                 # langfuse

// principles

Манифест: как я работаюManifesto: how I work

Ship > strategyShip > strategy

Лучше система в проде на 60% качестве, чем идеальная стратегия в PowerPoint.A 60%-quality system in prod beats a perfect strategy in PowerPoint.

Open by defaultOpen by default

Open-source модели и инфраструктура там, где это допустимо. Никакого vendor lock «из лени».Open-source models and infra wherever feasible. No vendor lock out of laziness.

Метрики, а не вайбыMetrics, not vibes

У каждой инициативы — baseline и целевая метрика. Без них проект не стартует.Every initiative has a baseline and a target metric. Otherwise the project doesn't start.

Команда в плюсTeam levels up

После проекта внутренняя команда сильнее, а не зависимее от внешних консультантов.After the engagement your team is stronger, not more dependent on external consultants.

// whoami

Антон БарханAnton Barkhan

Senior Architect AI в крупной промышленной группе. До этого — техлид и архитектор AI/ML в ритейле, R&D в телекоме. 16 лет в IT, последние годы — архитектура больших AI-программ. Спикер Industrial++ 2024. GenAI-консалтинг делаю как side-project — выбираю проекты, в которых интересно и полезно.Senior AI Architect at a major industrial group. Previously: tech lead and AI/ML architect in retail, R&D in telecom. 16 years in tech, recent years architecting large AI programs. Speaker at Industrial++ 2024. GenAI consulting is a side-project — I pick engagements that are interesting and useful.

📍 Москва📍 Moscow🌐 RU / EN⌨ 16y in tech🎤 Industrial++ 2024

// faq

Что обычно спрашивают tech-лидыWhat tech leads usually ask

Кодишь сам или только консультируешь?Do you actually code or just consult?

Кодю. Не каждый день, но регулярно — особенно на спринтах архитектуры и build & handover. Делал review десятков LLM-pipeline'ов, RAG-систем и агентских фреймворков.Yes I code. Not every day, but regularly — especially during architecture sprints and build & handover. I've reviewed dozens of LLM pipelines, RAG systems, and agent frameworks.

Как работаешь с open-source моделями?How do you work with open-source models?

vLLM / SGLang на OKD, Llama 4 (Scout / Maverick) и Qwen 3 как основная линейка, Mistral Large 2 и DeepSeek V3 / R1 для специфических задач. Файнтюны — LoRA / QLoRA, иногда continued pretraining на закрытых корпусах.vLLM / SGLang on OKD, Llama 4 (Scout / Maverick) and Qwen 3 as the main line, Mistral Large 2 and DeepSeek V3 / R1 for specific tasks. Fine-tunes — LoRA / QLoRA, sometimes continued pretraining on private corpora.

RAG или fine-tune?RAG or fine-tune?

Сначала RAG — почти всегда. Fine-tune — только когда измерили потолок RAG на задаче и знаем, что именно крутим. Иначе — дорогая иллюзия контроля.Start with RAG — almost always. Fine-tune only after you've measured the RAG ceiling on the task and know exactly what you're tuning. Otherwise it's an expensive illusion of control.

Можешь зайти как контрактор через ИП?Can you contract as IE / sole proprietor?

Да, ИП — стандартная схема. Под международные контракты тоже есть варианты, обсуждаем под ваш кейс.Yes, IE is the standard scheme. International contracts can also be arranged — let's discuss for your specific case.

Возьмёшься за seed / Series A стартап?Would you take on a seed / Series A startup?

Да, как fractional CTO или для архитектурного спринта — особенно если в продукте есть сильный AI-слой. Для seed обычно подбираю формат, который не съест cash burn.Yes — as fractional CTO or for an architecture sprint, especially if the product has a strong AI layer. For seed I usually find a format that doesn't kill the cash burn.

Поговорим про твой AI-стек?Let's talk about your AI stack?

45 минут — бесплатно. Никаких слайдов, говорим по делу: где сейчас, куда хочется, что мешает.Free 45 min. No slides, straight talk: where you are, where you want to go, what's blocking you.

NDA on default
Конкретика, не маркетингConcrete, not marketing
RU / EN — как удобноRU / EN — whichever

$ ./request_call

// name, company, contact, task// name, company, contact, task

📅 calendly.com/anton