🤖 Искусственный интеллект
GPT-5.5 решает 98% математической олимпиады США. Но это уже не повод радоваться
Martin Vechev · один из ведущих исследователей в области верификации и безопасности AI · ETH Zurich
Каждый раз, когда языковая модель набирает 90%+ на каком-нибудь математическом бенчмарке — этот бенчмарк тихо умирает. Он перестаёт что-то измерять. Исследователи из ETH Zurich решили эту проблему иначе: создали живую платформу MathArena, которая постоянно обновляется новыми задачами.
Что за платформа
В отличие от статичных датасетов, MathArena включает задачи из реальных олимпиад, формальные доказательства на языке Lean и вопросы из свежих научных препринтов. Как только модели «выучивают» один набор — добавляются новые.
Что показали замеры
GPT-5.5 берёт 98% задач математической олимпиады США 2026 года. Лучшая модель на задачах исследовательского уровня — из реальных научных статей — всего 74%. С учебными задачами олимпийского уровня модели, по сути, справились. С тем, что только что опубликовали учёные — всё ещё нет.
Почему важно не только математикам
Создание живых, постоянно обновляемых бенчмарков — отдельная инженерная задача, которую кто-то должен был решить. MathArena — один из первых примеров, как это делать правильно. Ждём аналогов в других дисциплинах.
arxiv.org/abs/2605.00674 Что если ваш компьютер знал, чего вы на самом деле хотите от жизни — не то, что говорите, а то, что реально делаете каждый день
James Landay · один из основателей области human-computer interaction · Stanford
Группа из Stanford задала неудобный вопрос: может ли система понять ваши долгосрочные жизненные цели, просто наблюдая за тем, как вы работаете за компьютером?
Как это работает
Система смотрит на обычную активность на компьютере и строит иерархическую карту: от конкретных действий — «открыл таблицу с финансами» — вверх к более абстрактным паттернам. Подход называется striving co-creation: пользователь может редактировать выводы системы, и она учитывает поправки в следующих циклах. Это важное отличие от обычной персонализации — не «вы смотрели это видео, поэтому вот ещё одно», а попытка понять структуру целей на уровне жизни.
Что показало исследование
Недельный эксперимент с 14 участниками: те, кто работал совместно с системой и редактировал её выводы, считали, что итоговая картина целей точнее отражает их реальные приоритеты — по сравнению с теми, кто получал только автоматические инференсы без возможности влиять.
Почему важно
Пока это академический прототип, не продукт. Но направление понятно: AI-ассистент, который понимает вас на уровне «зачем», а не только «что». Это другая лига персонализации ☺️
arxiv.org/abs/2605.00497 ETH Zurich и Microsoft выяснили: ваш взгляд важнее самой картинки, когда AI оценивает город
Marc Pollefeys · пионер 3D-реконструкции и компьютерного зрения · ETH Zurich + Microsoft Research
Когда AI оценивает городскую среду — безопасный ли район, приятно ли там гулять — он смотрит на изображение целиком. Но человек так не работает: он фокусируется на конкретных деталях, пробегает взглядом по определённым элементам. Марк Поллефейс решил проверить: что если добавить эти данные о взгляде прямо в модель?
Что сделали
Создали датасет Place Pulse-Gaze: уличные фотографии с синхронизированными записями движения глаз и оценками восприятия от реальных людей. Протестировали три подхода — только айтрекинг, айтрекинг + семантика сцены, айтрекинг + визуальные признаки.
Что показало
Взгляд человека сам по себе предсказывает восприятие — ещё до обработки изображения. Комбинация взгляда с визуальными признаками улучшает предсказание по всем измеряемым аспектам. Проще говоря: модель видит примерно то же, что видите вы — и потому точнее.
Где применяется
Оценка недвижимости, городское планирование, дизайн публичных пространств, автономные автомобили. Везде, где важно не просто «что на картинке», а «как это воспринимает человек».
arxiv.org/abs/2605.00764 ETH Zurich объяснил математически, почему Gemini и LLaMA устроены именно так — и почему это правильно
Ryan Cotterell · ведущий теоретик в области NLP · ETH Zurich
Практики давно знали: если добавить в трансформер «локальное» внимание — которое видит только ближайшие токены, а не весь контекст — модель работает лучше. Но почему? Хорошего объяснения не было. Архитектурные решения принимались эмпирически: «попробовали — стало лучше».
Что доказал Котерелл
Через теорию формальных языков показано: глобальное внимание (весь контекст сразу) и локальное (фиксированное окно) не дублируют друг друга — они дополняют. Каждое умеет то, чего не умеет другое. Гибрид выразительнее любого из них по отдельности.
Зачем это архитекторам моделей
Архитектуры вроде Gemini или LLaMA 3, которые смешивают оба типа внимания — были правильным решением, просто никто не мог доказать это строго. Теперь могут. Это даёт теоретическую карту: какие языковые паттерны требуют какого типа внимания. Ускоряет дизайн следующего поколения LLM.
arxiv.org/abs/2605.00768 Нейросеть научилась решать квантовые задачи для 150 электронов и обнаружила фазовый переход, который раньше требовал отдельного исследования
Liang Fu · основатель теории топологических материалов · MIT
Понять, как поведёт себя новый материал — батарейный электрод, полупроводник, сверхпроводник — раньше требовало либо физического синтеза, либо многонедельных вычислений. Команда MIT предложила третий путь.
Что сделали
Обучили одну нейронную модель сразу на семействе квантовых задач — она решает уравнения для систем до 150 электронов и находит, как меняется поведение материала при изменении параметров. Авторы называют это «foundation model для квантовых материалов» — по аналогии с тем, как AlphaFold стал foundation model для белков.
Что показало
На полупроводниковых гетероструктурах модель обнаружила фазовый переход между квантовой жидкостью и кристаллическим состоянием — то, что раньше требовало отдельного исследования для каждой точки.
Направление: ускорение поиска новых материалов для аккумуляторов, сверхпроводников и квантовых компьютеров.
arxiv.org/abs/2604.26018 Роботу задаётся точка на картинке — «куда переместить руку» — и он сам разбирается, как это сделать. Ошибка управления снизилась в 3,8 раза
Trevor Darrell · пионер компьютерного зрения в автономных системах, один из самых цитируемых в области AI · UC Berkeley
Чтобы управлять роботом, нужно задавать движение каждого сустава отдельно — это сотни параметров одновременно. Команда UC Berkeley предложила другой подход: вместо этого системе задаётся простая точка на изображении — «куда переместить руку» — а лёгкий модуль сам переводит это в конкретные движения суставов.
Что получилось
Ошибка управления снизилась в 3,8 раза по сравнению с прямым поиском. При этом система работала в окружениях, которых не видела при обучении — то есть обобщает, а не просто запоминает.
Это направление работ — как дать роботу более понятный «язык команд» вместо управления каждой мышцей вручную.
arxiv.org/abs/2604.26182 Языковая модель научилась улучшать себя сама — без разметки людей, без GPT-4.1, без внешней обратной связи
Pang Wei Koh, Sewoong Oh, Yulia Tsvetkov · ведущие исследователи в области ML и NLP · University of Washington / CMU
Один из главных барьеров в развитии языковых моделей — зависимость от внешней обратной связи: нужны люди с разметкой, или более сильная модель (GPT-4.1, Claude) как оценщик. Команда предложила другой путь: модель сама генерирует критерии оценки — и сама же по ним обучается.
Как работает EvoLM
Система попеременно тренирует два компонента: генератор рубрик — учится формулировать критерии, по которым легко отличить хороший ответ от плохого — и политику, которая обучается на сигнале от этих рубрик. Никакого внешнего учителя. Единственный источник сигнала — разница между собственными ответами модели в разные моменты времени.
Что показало
Модель Qwen3-8B, обученная этим методом, генерирует рубрики оценки, которые превосходят GPT-4.1 на RewardBench-2 на 25,7%. Итоговая политика опережает системы, обученные с GPT-4.1 как учителем, на 3,9%, и опережает специализированную reward-модель SkyWork-RM на 16%.
Почему это важно
Если модели могут улучшаться без привязки к более сильному учителю — это меняет логику развития всей отрасли. Потолок больше не определяется тем, кто лучший оценщик сегодня.
arxiv.org/abs/2605.03871 Два AI-агента учат друг друга работать с видео — без единой разметки от человека
Lorenzo Torresani · один из ведущих исследователей в компьютерном зрении и видео-AI · Meta AI
Разметка видео стоит дорого. Один час видео — десятки часов работы разметчиков: нужно указывать, что происходит в каждом фрагменте, кто где находится, что делают руки. Команда Meta AI решила проверить, можно ли обучить видео-агентов вообще без этого.
Как работает EvoGround
Система строится из двух агентов. Первый — proposer — предлагает задачу для видеоклипа: сформулировать вопрос, найти момент, описать действие. Второй — solver — пытается эту задачу решить. Если решение верное, оба агента получают положительный сигнал и учатся на нём. Если нет — пробуют снова. Никакой разметки от человека: единственный источник сигнала — согласие двух агентов между собой.
Что показало
Обученные на 2 500 неразмеченных видео агенты достигают результатов, сопоставимых с моделями, обученными на полностью размеченных датасетах. То есть самоиграющая система восполняет разметку, которая не существовала.
Почему важно
Видео — самый дорогой тип данных для обучения AI. Подход показывает путь к масштабированию без пропорционального роста затрат на аннотацию. Следующий шаг — роботы, которые учатся смотреть на реальный мир и не спрашивают человека, что происходит.
arxiv.org/abs/2605.13803 MIT показал, как сделать LLM дешевле — с математическими гарантиями
Piotr Indyk, Michael Kapralov · основоположники алгоритмической теории в области обработки данных · MIT + EPFL
Чем длиннее контекст языковой модели — тем больше памяти занимает KV-кэш. Это главный барьер для инференса: длинные документы просто не помещаются. Квантизация — обычное решение — работает, но не даёт никаких гарантий точности. Теоретически можно потерять что угодно.
Что предложили
Использовать преобразование Адамара перед квантизацией — с добавлением случайного «дрожания» (dithering). Математически доказано, что такой подход даёт несмещённую оценку: ошибка не накапливается систематически, а рассеивается. Гарантия — через строгие границы на среднеквадратическое отклонение.
Где применяется
Три независимых задачи: сжатие KV-кэша в LLM, федеративное обучение (когда модели учатся на устройствах пользователей, не передавая данные), поиск по близости (similarity search). В каждой из них метод обеспечивает теоретически подтверждённое улучшение по точности — чего обычные эмпирические методы квантизации не могут гарантировать.
Почему важно
Индустрия давно квантизирует модели на практике. Но «работает в большинстве случаев» и «доказано работает» — это разные вещи, особенно в медицине, финансах и автономных системах. Это первая работа с полноценными теоретическими гарантиями для данного класса задач.
arxiv.org/abs/2605.13810 16 роботов, которые учатся прямо во время работы — и не останавливаются
Jianlan Luo · исследователь fleet-scale robot learning · UC Berkeley
Обычный цикл обучения робота выглядит так: собрали данные → остановили → переобучили модель → перезапустили. Команда UC Berkeley решила сломать этот цикл.
Что сделали
Запустили флот из 16 роботов на реальных задачах манипуляции. Роботы накапливают опыт одновременно — и от успешных автономных действий, и от случаев, когда вмешивается оператор. Весь этот опыт потоком идёт обратно в общую политику без остановки флота.
Что получилось
На 8 задачах манипуляции, некоторые из которых длятся 3–5 минут, — 95% успеха в среднем по флоту. Ключевое наблюдение: чем дольше работает флот, тем лучше он справляется с длинными задачами. Система буквально умнеет во время работы.
Почему это важно
Для роботизации на масштабе — склады, фабрики, сельское хозяйство — цикл «остановился → переобучился → перезапустился» это потеря времени и денег. Подход показывает, что можно иначе: флот улучшается непрерывно, как живой организм.
arxiv.org/abs/2605.00416 MIT научил роботов работать в реальном мире, не показав им ни одной реальной сцены
Phillip Isola · один из ведущих исследователей в области generative models и robot learning · MIT
Самое дорогое в обучении робота — сбор данных. Нужны тысячи реальных демонстраций, операторы, часы записи. Команда MIT предложила обойти это полностью.
Как работает Lucid-XR
Оператор надевает XR-гарнитуру. На ней запускается физическая симуляция. Движения рук оператора автоматически перетаргетируются на робота. Затем записанные сцены прогоняются через генеративный видеопайплайн — на выходе фотореалистичный синтетический датасет. Никакой реальной съёмки.
Ключевой результат
Zero-shot transfer: роботы, обученные исключительно на синтетике, работают в реальных сценах — захламлённых, с плохим освещением, с непредсказуемым расположением объектов. Протестировано на мягких материалах, сыпучих веществах и твёрдых телах.
Проблема сбора обучающих данных — один из главных барьеров для масштабирования роботики. Это один из подходов к её решению.
arxiv.org/abs/2605.00244 Жалоба пациента → целевой орган → координаты для робота за 0,08 секунды. Точность попадания в печень — 97%
Dacheng Tao · один из самых цитируемых исследователей в области machine learning · NUS
Чтобы начать УЗИ-сканирование, оператор должен знать, куда поставить датчик — это требует анатомических знаний. Команда NUS разработала систему из трёх шагов: жалоба пациента переводится в целевой орган, по внешней фотографии тела строится анатомическая карта, и из неё генерируются координаты для робота. Никаких предварительных МРТ или КТ.
Что показали тесты
В тестах на реальном роботе система попадала в печень в 97,3% случаев, в почку — в 81,7%. Весь расчёт анатомии занимает 0,08 секунды на орган.
Это работа на стыке роботики и клинической диагностики — направление, где пересекаются интересы производителей медоборудования и разработчиков автономных систем.
arxiv.org/abs/2604.25646 Модель, которая предсказывает болезнь Альцгеймера на четыре года вперёд — по пяти числам на пациента
George Biros · ведущий исследователь в области вычислительной биомедицины · UT Austin
Болезнь Альцгеймера начинает развиваться за 15–20 лет до появления симптомов. Ключевой маркер — накопление амилоидных бляшек — измеряется ПЭТ-сканированием. Проблема: оно дорогое, его делают редко, и непонятно как по одному снимку понять, куда движется болезнь у конкретного пациента.
Что за модель
Команда UT Austin построила LNODE — математическую модель, которая описывает три процесса одновременно: как амилоид распространяется по мозгу, как он накапливается и как выводится. Для каждого пациента — всего 5–10 индивидуальных параметров. Проверено на 2 500+ пациентах из двух крупнейших когортных исследований (ADNI и A4 Study).
Что получилось
- R² > 0,99 на обоих датасетах
- Успешные прогнозы на повторных сканах через 4+ года после исходного
- Кластерный анализ выявил различимые подтипы прогрессии болезни
Последнее особенно важно для фармы: если подтипы реальны, клинические испытания можно таргетировать точнее — что снижает их стоимость и повышает шансы на успех.
arxiv.org/abs/2605.00272 AI-ассистент во время операции на желчном пузыре — точность оценки безопасного разреза выросла на 12–14%
Daniel Hashimoto · пионер применения AI в хирургии · UPenn Surgery
При лапароскопической операции на желчном пузыре хирург должен визуально подтвердить конкретную анатомическую картину прежде чем делать разрез. Ошибка здесь приводит к повреждению желчного протока. Команда UPenn обучила vision-language модель оценивать это не одним суждением, а через набор конкретных проверок — видна ли структура, не перекрыта ли инструментом, совпадает ли с ожидаемой анатомией.
Что показало
На датасете Endoscapes2023 точность оценки выросла на 12–14% относительно базового подхода. Модель хорошо справляется с видимостью структур, но менее стабильна на критических анатомических деталях — авторы это честно фиксируют.
Направление: AI как второй глаз хирурга в операционной, не как замена — как дополнительная проверка перед необратимым решением.
arxiv.org/abs/2604.22156 AI-агент на Fitbit поставил диагноз точнее врача. На 13 917 реальных пациентах
Shwetak Patel, Xin Liu, Mike Schaekermann · Google · пионеры в области wearable health AI
Медицинские AI-системы обычно тестируются на кейсах из учебников — отобранных, чистых, однозначных. Команда Google решила проверить, как это работает на реальном потоке пациентов. Развернули пять разных AI-агентов в приложении Fitbit — они вели диалог с пользователями о симптомах и ставили предварительный диагноз.
Масштаб
13 917 участников были рандомизированы в эксперименте. 1 228 человек получили впоследствии диагноз от реального клинициста — это стало меткой истинности. Для оценки качества диалогов привлекли клиническую экспертную панель (~250 часов аннотации).
Результат
AI-диагнозы оказались в 2,47 раза точнее (OR = 2,47, p < 0,001), чем диагнозы независимых врачей, которые смотрели на те же диалоги вслепую. Системы со специализированной стратегией опроса симптомов значительно превзошли базовый подход.
Почему это важно
Первичная сортировка — один из самых дорогих и перегруженных этапов в здравоохранении. Если AI способен делать это точнее врача на масштабе миллионов носимых устройств — это другая экономика доступа к медицине. Не замена врача, но фильтр до него.
arxiv.org/abs/2605.04012 Лауреат Филдсовской премии применил топологическую математику к портфелям из 5 440 акций — и показал, где стандартная теория даёт сбой
Shing-Tung Yau · лауреат Филдсовской премии, один из величайших математиков современности · Harvard
Классическая модель Марковица оптимизирует портфель по средней доходности и волатильности, но не учитывает асимметрию и поведение в хвостах — то есть именно кризисные сценарии. Математически учесть это можно, но при тысячах активов объём вычислений становится неподъёмным: нужно хранить и оперировать тензорами четвёртого порядка.
Что сделали
Нашли способ работать напрямую с матрицей доходностей, не строя тензоры явно. Метод протестирован на 5 440 акциях китайского рынка A-shares.
Что показало
Учёт старших моментов даёт заметный выигрыш при умеренных целевых доходностях — именно там, где и концентрируется большинство институциональных стратегий.
arxiv.org/abs/2604.25378 ETH Zurich закрыл математическую дыру в страховании, которая существовала десятилетиями
Mario Wüthrich · один из ведущих актуариев мира · ETH Zurich
Страховая компания должна держать резервы под будущие выплаты — базовое требование регулятора. Два стандартных метода расчёта — chain-ladder и Bornhuetter-Ferguson — давно имеют стохастическую формулировку: можно посчитать не только оценку, но и погрешность. Третий метод, Cape Cod, такой формулировки не имел. Марио Вутрих это исправил.
Что сделано
Выведена аналитическая формула для среднеквадратической ошибки предсказания метода Cape Cod. Теперь страховщики получают не только точечную оценку резерва, но и строгий доверительный интервал.
Зачем это важно
Регуляторы по всему миру движутся в сторону Solvency II и IFRS 17 — стандартов, где недостаточно сказать «резерв равен X». Нужно показать, с какой вероятностью хватит. Работа Вутриха даёт для этого математический инструмент.
arxiv.org/abs/2604.27732 Один из создателей теории 5G говорит: синусоиды устарели. Вот что придёт на замену в 6G
Emil Björnson · один из самых цитируемых исследователей в беспроводной связи · KTH
Стандарт 4G и 5G строится на OFDM: данные передаются на множестве синусоидных поднесущих параллельно. Это работает отлично — если объект стоит на месте. Стоит ему начать двигаться с серьёзной скоростью — дрон, поезд, автомобиль — и эффект Доплера сдвигает частоты, сигнал деградирует.
Что предлагает Бьёрнсон
Переход на чёрп-сигналы: волны с нарастающей частотой, которые распределяют энергию по времени и частоте одновременно и устойчивы к Доплеру. Совместимы с существующей инфраструктурой 5G — не нужно строить с нуля.
Два ключевых момента
- Особенно подходят для ISAC — технологии, где антенна 6G одновременно является радаром
- Это основа для автономного транспорта, мониторинга дронов и smart manufacturing
То есть 6G — это не просто «быстрее интернет». Это инфраструктура, которая одновременно двигает данные и видит мир вокруг себя.
arxiv.org/abs/2605.00249