Советские гвозди и токены. Что общего между заводом в позднем СССР и инженерным отделом крупной AI‑компании в 2026 году? Больше, чем хотелось бы.
Как токены превратились в "новые строки кода"
Руководство технологических компаний отчаянно пытается измерить "AI‑продуктивность". Вроде бы всё логично: если инженеры активно используют модели, значит, они работают быстрее и эффективнее. Так рождается новая метрика - количество потреблённых AI‑токенов.
Компании начинают ранжировать разработчиков по объёму сожжённых токенов. Не по качеству фич, не по стабильности релизов, не по влиянию на продукт - а по числу запросов к модели. Внутри это даже получило своё название: tokenmaxxing - максимизация токенов как вид производственного спорта.
Самый яркий кейс - внутренний дашборд в Meta под названием Claudeonomics. За один месяц 85 тысяч сотрудников успели сжечь 60 триллионов токенов. Лидер таблицы в одиночку нагнал 281 миллиард. При этом сам Цукерберг в топ так и не пробился - ирония в том, что метрика якобы про эффективность, но к реальной пользе для бизнеса она имеет примерно столько же отношения, сколько тоннаж к качеству люстр.
После волны негатива внутри и вовне компании дашборд закрыли. Однако похожие рейтинги продолжают жить в других местах - например, в Shopify и OpenAI системы учёта и сравнения AI‑активности сотрудников продолжают использоваться.
На этом фоне появляются новые фигуры "героев": инженеры публикуют скриншоты счетов от AI‑провайдеров на $200-400 тысяч в месяц и подписывают: "Вот это я понимаю работа". TechCrunch успевает заметить, что люди, запускающие агентов в три ночи и считающие себя сверхпродуктивными, на деле часто лишь создают иллюзию занятости.
Как индустрия пытается узаконить токены как метрику
AI‑оптимизм подливает масла в огонь. Через несколько дней после истории с внутренним дашбордом Meta, на экономическом саммите один из ключевых фигур AI‑рынка, Рейд Хоффман, аккуратно поддерживает трекинг активности в AI‑системах. Он признаёт, что это "неидеальный, но полезный сигнал". Дженсен Хуанг рассуждает о годовых бюджетах на токены порядка 250 тысяч долларов на одного топ‑инженера - как о чём-то само собой разумющемся.
В глазах топ-менеджмента формируется простая связка: много токенов → много взаимодействия с моделью → высокая ценность сотрудника. В отчётах это легко упаковать в табличку, на совещании удобно показать график, а в HR‑процессах несложно прикрутить к премиям и грейдам.
Но у этой логики есть проблема: она старыми словами переписывает одну и ту же ошибку, знакомую минимум восемьдесят лет.
Гвозди, люстры и толстое стекло
В позднем Советском Союзе гуляла история про гвоздильный завод. План можно было ставить либо в тоннах, либо в штуках.
- Если в тоннах - завод начинал выпускать огромные тяжёлые гвозди, которые толком некуда было использовать.
- Если в штуках - производство переключалось на крошечные гвозди-иголки: план выполняется, а реальная потребность в нормальных гвоздях остаётся неудовлетворённой.
Считается, что эта байка родилась в сатирическом журнале, но суть проблемы была реальной. В 1959 году Хрущёв в газетной статье жаловался уже не на гвозди, а на люстры и мебель. Фабрики выпускали слишком тяжёлые люстры, чрезмерно громоздкие диваны и чересчур толстое оконное стекло. Причина была та же: план в тоннах. Вес гнаться проще всего, а то, что в комнате не становилось светлее и удобнее, в отчётах не фигурировало.
Важно понять: это не "советская специфика" и не исключительно проблема плановой экономики. Корень беды - в том, как мы выбираем метрику и что с ней потом делаем.
Закон Гудхарта: метрика против реальности
В 1975 году экономист Чарльз Гудхарт сформулировал закономерность, которая сегодня стала почти крылатой:
Как только показатель становится целью, он перестаёт быть хорошим показателем.
Метрика, задуманная как прокси реального качества, в момент превращения в KPI начинает жить самостоятельной жизнью. Люди внутри системы начинают не улучшать реальность, а оптимизировать именно цифру. И это не из-за злого умысла: так устроена любая живая организация.
Разрыв между прокси и реальностью - это не баг одной конкретной метрики. Это свойство самой идеи "управления по цифрам", если за цифрами перестают видеть смысл.
Как это уже происходило десятки раз
Чтобы понять, почему токены - это не про продуктивность, а про повтор той же ошибки, достаточно взглянуть на знакомые примеры.
Академическая наука и индекс Хирша
Индекс Хирша был задуман как честный способ измерить влияние учёного на науку. Чем больше полезных работ, тем чаще их цитируют, тем выше индекс. Теоретически - разумно.
На практике небольшое сообщество быстро нащупало лазейки. Появились взаимные цитирования: ты ссылаешься на меня, я на тебя - у обоих растёт h‑index без единого нового открытия. Распространился "salami slicing": одну большую работу режут на пять статей, каждая аккуратно цитирует остальные четыре. Журналам тоже выгодно: чем больше публикаций и ссылок, тем лучше их рейтинги.
Никто формально не нарушает правила. Проблема в том, что сами правила начинают стимулировать производство вторичного контента, а не научных прорывов.
Школы, тесты и "натаскивание"
В начале 2000‑х в США запускают реформу образования: финансирование школ привязали к результатам стандартизированных тестов. Допустимая идея - получить прозрачную, сравнимую метрику качества.
Что произошло? Учителя начали учить детей не предмету, а формату теста. На проверках показатели по чтению и математике росли. Но независимые исследования фиксировали другое: дети хуже решали задачи, которые выходили за рамки стандартных заданий.
Метрика красиво росла, а реальное образование - нет. Система честно выполняла требования, но оптимизировалась под цифру, а не под развитие.
Колл-центры и среднее время звонка
История короче, но гораздо честнее. Эффективность сотрудников колл-центров начали считать по среднему времени разговора: чем короче, тем лучше. Сотрудники нашли простой выход: на сложных клиентах, требующих времени, просто вешали трубку.
Формально всё отлично: среднее время консультации падает. В реальности клиент перезванивает, получает ещё одно разъединение или злого оператора, итог - два звонка вместо одного, больше нагрузки и меньше удовлетворённости. Тем не менее в большом количестве контакт-центров эта логика живёт до сих пор.
NPS и "поставьте, пожалуйста, десяточку"
С индексом лояльности клиентов история такая же. Когда показатель NPS начинает влиять на зарплату сотрудников, их поведение закономерно меняется. Перед опросом клиенту говорят: если что-то не понравилось - напишите напрямую, мы разберёмся, а в анкете поставьте десять, иначе нам сильно достанется.
Клиент, не желая вредить конкретному человеку, действительно ставит десятку. NPS растёт. Но основная проблема, из-за которой он вообще обращался в поддержку, очень часто остаётся нерешённой. Система оптимизировалась под галочку в отчёте.
Строки кода, story points и миф о "скорости"
Разработчики сталкивались с этим задолго до AI. Строки кода как метрика производительности программиста стали своего рода анекдотом отрасли. Билл Гейтс сравнивал это с измерением прогресса авиастроения по весу самолёта: чем больше, тем хуже.
Тем не менее идея переродилась в более "современные" формы - velocity, story points и прочие числовые показатели. Как только команды начинают оценивать по количеству выполненных поинтов за спринт, возникает предсказуемое поведение: оценки задач начинают завышать. Velocity растёт, ощущение "скорости" сохраняется, но фичи не появляются быстрее, а качество не улучшается. На ретроспективах все честно признают: система вроде бы работает. Просто не так, как задумывалось.
Токены как новые гвозди
Теперь вернёмся в 2026 год. Инженеры, посмотревшие на токен-лидерборды, действуют абсолютно рационально. Они видят, что метрика стала частью кадровых решений. Значит, чтобы не потерять позиции, нужно увеличивать счётчик.
Отсюда появляются ночные забеги агентов, пустые или полупустые промпты, бесконечные перегенерации, скрипты, которые гоняют модель "на всякий случай". Логика ровно та же, что у советского директора, гнавшего тонны вместо качества, или оператора колл-центра, бросающего трубку ради показателя.
Хоффман, называя трекинг AI‑активности "неидеальным, но полезным", прав в одном: это действительно сигнал. Но не о продуктивности. Это скорее индикатор объёма обращения к инструменту - что ближе к учёту электричества, чем к оценке вклада в продукт. Превращать это в KPI - всё равно что премировать пилотов за количество нажатых кнопок в кабине.
Почему токены не равны результату
Количество токенов, "сожжённых" инженером, почти ничего не говорит о:
- качестве кода;
- устойчивости систем в проде;
- скорости вывода фич;
- влиянии на выручку или удержание пользователей;
- снижении рисков или технического долга.
Инженер, который потратил немного токенов, но за счёт опыта, аккуратных промптов и хорошей архитектуры решил сложную задачу, в таких системах выглядит аутсайдером. А тот, кто за ночь гоняет десятки экспериментов без цельной стратегии, оказывается на вершине рейтинга.
Это классический пример, когда система поощряет расход ресурса, а не результат его использования.
Как можно измерять AI-продуктивность осмысленно
Отказаться от метрик невозможно - бизнесу нужны ориентиры. Вопрос не в том, использовать ли числа, а в том, какие именно и как.
Вместо того чтобы считать токены, имеет смысл смотреть на:
- Влияние на продукт. Какие фичи были сделаны с помощью AI и как они сказались на ключевых бизнес-показателях: активации, удержание, конверсии.
- Сокращение цикла разработки. Насколько реально уменьшилось время от идеи до релиза. Видно ли, что команды с AI доставляют больше ценности за тот же период.
- Качество и стабильность. Снизилось ли количество инцидентов, регрессий, ручных исправлений благодаря тому, что часть задач за инженеров делает модель.
- Повторно используемые решения. Создаёт ли человек промпты, инструменты, пайплайны, которыми потом пользуются другие. Такие вещи редко видно в токен-отчётах, но они критически важны.
- Командный эффект. Насколько человек помогает остальным осваивать AI-инструменты, делится лучшими практиками, формирует базу знаний. Это сложно выразить одной цифрой, но по настоящей продуктивности влияет ощутимо.
Токен-статистика может быть вспомогательной: помочь увидеть аномалии, понять нагрузку на инфраструктуру, заметить потенциальные злоупотребления. Но как только её начинают использовать для оценки людей, она неминуемо превращается в ту самую "плановую цифру", под которую оптимизируется поведение.
Что делать компаниям, чтобы не повторять историю с гвоздями
Если задача - не нарисовать красивую диаграмму для презентации, а реально усилить продукт за счёт AI, полезно придерживаться нескольких принципов:
1. Не делать из технических счётчиков кадровые KPI. Токены, запросы, GPU‑часы - отличные эксплуатационные метрики, но ужасные показатели для управления людьми.
2. Сначала цель, потом инструмент. Ответить честно: какую именно бизнес-проблему мы хотим решать AI‑подходами? Ускорить разработку? Снизить баги? Выйти на новый рынок? И уже под это подбирать показатели.
3. Разделить доступ и эффективность. Факт того, что сотрудник часто пользуется моделью, говорит о доступе и привычке. Эффективность начинается там, где видно влияние на продукт.
4. Защищать людей от метрик, а не наоборот. Хорошая лидерская позиция - объяснять, какие показатели вспомогательные, а какие действительно важны. И честно признавать, когда выбранная метрика начинает искажать поведение.
5. Встраивать качественную оценку. Там, где автоматические метрики не справляются, нужен экспертный взгляд: код-ревью, архитектурные комитеты, продуктовые ретроспективы. Да, это дороже и медленнее, чем цифра в отчёте, но именно так не теряется реальность за прокси.
Как инженеру выжить в мире токен-рейтингов
Отдельный вопрос - что делать рядовому разработчику, когда сверху внезапно спускается токен-лидерборд?
- Сохранять фокус на результате. Даже если система поощряет бессмысленную активность, в долгую карьеру обычно делают те, кто приносит реальную ценность, а не просто "бьёт по кнопкам".
- Документировать вклад. Показывать не "я сжёг 10 миллиардов токенов", а "с помощью AI мы сократили разработку фичи X вдвое и снизили баги на Y%".
- Помогать формировать адекватные метрики. Разработчики часто лучше менеджмента понимают, что действительно отражает эффективность их работы. Аргументированные предложения по изменению KPI нередко оказываются услышанными.
- Не поддаваться искушению "играть в систему" до абсурда. Краткосрочная выгода от имитации бурной AI‑деятельности может обернуться репутационным минусом, когда волна токен-энтузиазма схлынет.
Вместо вывода
История с советскими гвоздями, тяжёлыми люстрами, натасканными на тесты школьниками и закрытым дашбордом Claudeonomics - это не набор анекдотов из разных эпох. Это один и тот же сюжет: как только удобную числовую метрику ставят во главу угла, система начинает служить ей, а не цели, ради которой она вообще появилась.
AI не виноват в том, что его эффективность пытаются измерить токенами. Виновата наша старая привычка путать счётчик ресурса с показателем результата. И пока мы не научимся честно разводить эти вещи, токены так и будут новыми советскими гвоздями - впечатляющими по цифрам, но мало пригодными для дела.



