Память или скорость — выберите одно. Почему даже спустя 50 лет компьютеры не могут просто сохранить файл

Информатика доказала, что сваливать задачи в «кучу» выгоднее, чем вести идеальные списки.

В мире цифровых данных нет универсального способа всё «разложить по полкам». То, как компьютер хранит информацию, всегда связано с компромиссами: где-то важнее скорость записи, где-то — скорость поиска, а где-то — экономия памяти. Именно этим и занимаются разработчики структур данных: они проектируют такие схемы хранения, которые по-разному балансируют между скоростью добавления, удаления, поиска и объёмом используемой памяти.

Даже простое действие вроде создания нового файла — это уже задача для системы хранения. Компьютеру нужно быстро найти место, куда записать информацию. Если файл потом удаляют, система должна так же быстро найти нужные участки памяти и освободить их. Чем больше данных, тем сложнее становится эта логистика.

Принцип можно объяснить на бытовом примере с книгами. Если расставить их на одной длинной полке строго по алфавиту, любую книгу легко найти. Но каждая новая покупка превращается в проблему: нужно найти правильное место и сдвигать остальные тома. Если же просто ставить книги туда, где есть свободное место, всё добавляется быстро, но поиск превращается в хаос. Такой выбор между удобством добавления и удобством поиска кажется мелочью в маленькой библиотеке, но становится серьёзной проблемой, когда речь идёт о тысячах объектов.

Другой вариант — не одна полка, а набор ящиков. Например, 26 контейнеров по буквам алфавита. Тогда по первой букве фамилии автора сразу понятно, куда положить книгу и где её искать. В некоторых ситуациях это действительно ускоряет и добавление, и поиск.

Но и тут есть свои ограничения. Если в ящике лежит не одна книга, а десятки, поиск внутри него снова занимает время. А если большинство авторов начинается на одну и ту же букву, часть контейнеров будет переполнена, а другие останутся пустыми, занимая место без пользы.

В информатике похожую логику используют хеш-таблицы. Это структуры данных, где каждому объекту заранее вычисляется адрес хранения на основе его ключа. В случае с книгами ключом может быть имя автора, название или другой параметр. Специальная математическая функция превращает этот ключ в номер ячейки памяти. Такая функция называется хеш-функцией. Хорошая хеш-функция распределяет данные равномерно, чтобы одни области памяти не перегружались, а другие не простаивали.

Если увеличить количество ячеек, поиск становится быстрее, но растёт расход памяти, потому что часть ячеек может оставаться пустой. В итоге снова возникает компромисс — скорость против объёма. Даже спустя десятилетия после появления хеш-таблиц учёные продолжают находить новые свойства этих структур. Недавно были получены модели, которые дают почти идеальный баланс между скоростью работы и расходом памяти. А в прошлом году студент опроверг одну из старых теоретических гипотез о том, сколько времени в принципе нужно для поиска элемента в почти заполненной хеш-таблице.

Но бывают ситуации, где вообще не важно, где именно лежат данные, пока они не становятся приоритетными. Простой пример — список задач с разными сроками. Новые задачи добавляются постоянно, но искать любую из них не нужно. Важна только самая срочная.

Для таких сценариев используют другую структуру данных — кучу (heap). Это неупорядоченное на первый взгляд хранилище, где элементы расположены слоями, и самый важный всегда находится сверху. Всё остальное может лежать как угодно, потому что доступ к ним не нужен, пока они не поднимаются в приоритетах.

Одна из базовых реализаций кучи строится на бинарном дереве. В нём есть верхний узел, от которого вниз отходят два подузла, от них — ещё по два и так далее. Каждый узел хранит одну задачу с числовым приоритетом. Чем меньше число, тем выше срочность. Новая задача добавляется в свободное место на нижнем уровне. После этого система сравнивает её приоритет с тем, что находится уровнем выше. Если новая задача важнее, элементы меняются местами. Этот процесс повторяется до тех пор, пока задача не окажется под элементом с более высоким приоритетом. В результате самая срочная задача всегда оказывается наверху.

Даже при большом количестве задач такая схема работает очень быстро. Например, при тысяче задач новой записи потребуется всего несколько перестановок, чтобы попасть на нужное место. Когда верхний элемент удаляется, система так же быстро подтягивает следующую по приоритету задачу снизу. Кучи широко применяются в алгоритмах поиска кратчайших путей в сетях, навигации, логистике, маршрутизации и других задачах, где важно быстро получать самый «важный» элемент из множества.

В итоге информатика приходит к тому же выводу, что и в быту: идеального способа хранения не существует. Любая схема — это компромисс между скоростью, памятью и удобством доступа. Иногда лучше порядок, иногда — скорость, иногда — приоритет. И если какие-то данные важнее других, система может быть неидеально организованной в целом, но при этом работать максимально эффективно там, где это действительно нужно.

Кто-то прячет адрес ради сериалов. Вы — ради новостей про кибербезопасность.

Память или скорость — выберите одно. Почему даже спустя 50 лет компьютеры не могут просто сохранить файл

Подпишитесь на email рассылку