37 ТБ мусора за три недели. OpenAI Codex незаметно убивает накопители пользователей

leer en español

1852
37 ТБ мусора за три недели. OpenAI Codex незаметно убивает накопители пользователей

Диагностика работала так усердно, что быстро вышла из-под контроля.

image

Даже служебные файлы порой могут стать заметной нагрузкой для железа, если программа записывает их без меры, и именно с такой проблемой столкнулись пользователи OpenAI Codex. В агенте для программирования нашли ошибку в локальных диагностических журналах: Codex слишком часто пишет данные на SSD и тем самым ускоряет расход ресурса накопителей.

Проблему описал разработчик Руй Фань, участник комитета Apache Flink. По его словам, за 21 день работы основной SSD записал около 37 ТБ данных, а проверка показала, что главным постоянным источником записи стали SQLite-журналы Codex. При такой скорости годовой объём мог бы достигнуть примерно 640 ТБ.

Для твердотельных накопителей такой объём важен, потому что срок службы SSD часто измеряют в TBW, то есть в количестве терабайт, которые можно записать до исчерпания заявленного ресурса. У некоторых потребительских моделей показатель находится около 600 TBW для версии на 1 ТБ, поэтому даже один год такой нагрузки способен приблизить накопитель к границе гарантийной выносливости.

Пользователи также начали оценивать финансовый ущерб от лишних записей. Один из разработчиков привёл расчёт, по которому его Samsung 990 2 ТБ NVMe потерял около $38,64 условной стоимости ресурса. В той же дискуссии появилась оценка, что с марта по июнь ошибка могла сжечь ресурс SSD пользователей на сумму в несколько миллионов долларов, но речь идёт именно о расчёте по модели стоимости одного записанного терабайта, а не о подтверждённых выплатах или поломках.

OpenAI подтвердила, что инженеры знают о проблеме и уже работают над исправлением. По данным компании, журналы нужны для диагностики ошибок, а данные остаются на устройстве, если пользователь сам не отправляет их в отчёте. Сбой возник из-за слишком большого объёма информации, которую Codex сохранял так, что нагрузка на диск оказалась намного выше ожидаемой.

Проблема, судя по обсуждению, связана с февральскими изменениями, когда серверные SQLite-журналы начали писать на подробном уровне TRACE. Такой режим фиксирует больше событий, чем обычная запись ошибок, поэтому при неудачной реализации быстро превращается в постоянный поток операций записи. OpenAI уже вносит исправления, однако пользователи продолжают сообщать о новых случаях чрезмерной активности Codex на диске.