Неужели Трамп снова объявил войну правде?
С data.gov, крупнейшего портала открытых данных правительства США, исчезли более 2000 датасетов . Ситуация вызвала серьезное беспокойство научного сообщества и, как ни странно, совпала с возвращением Дональда Трампа к активной политической деятельности.
Если 21 января портал содержал 307 854 набора данных, то к началу февраля их осталось всего 305 564. Особенно активно файлы начали исчезать в последние 2 недели, то есть после инагурации. Это подтверждают архивные копии сайта в системе Wayback Machine проекта Internet Archive.
Исследователь Гарвардского университета Джек Кушман, который следит за изменениями на портале, указывает на неоднозначность ситуации. Data.gov работает как агрегатор, а не постоянное хранилище, поэтому файлы могут исчезать с платформы, но оставаться доступными на сайтах отдельных ведомств. Кушман и его коллеги создают полную копию материалов с портала, чтобы результаты многолетних научных трудов не канули в лету..
Журналисты 404 Media провели расследование и выяснили: часть исчезнувших с data.gov материалов все еще можно найти на сайтах федеральных агентств. Встречаются и более странные случаи – ссылки на data.gov ведут на рабочие страницы, но при попытке скачать файлы сервер выдает ошибку 404.
Больше всего пострадали архивы Министерства энергетики, Национального управления океанических и атмосферных исследований (NOAA), Министерства внутренних дел, NASA и Агентства по охране окружающей среды. Однако проследить судьбу каждого файла пока не удается – для этого нужно вручную проверять все исчезнувшие материалы.
Сама структура data.gov усложняет анализ происходящего. Как объясняет Кушман, часть информации хранится на серверах портала, но многие записи содержат только ссылки на внешние ресурсы. "Когда данные пропадают, важно понять: исчезла сама информация или только ссылка на нее?" – подчеркивает ученый.
Характерный пример – документ NOAA с данными о температуре воды в коралловых рифах Гавайского архипелага за 2005-2019 годы. Файлы больше не найти через data.gov, но они сохранились на сайте самого управления – их можно обнаружить через Google. А вот другой массив данных NOAA о наблюдениях за бентосом в заповеднике Стетсон-Флауэр-Гарденс за 1993-2018 годы, похоже, полностью стерт из интернета. Трехмерная термальная модель вулкана Ньюберри в Орегоне, созданная Министерством энергетики, теперь доступна только на сторонних сайтах.
Ситуацию легко списать на целенаправленные действия администрации, которая объявила войну исследованиям климата и программам социального равенства. Однако архивисты, которые анализируют удаленные материалы, считают, что картина сложнее. Часть файлов могла исчезнуть из-за рутинной смены администрации – например, после инаугурации Джо Байдена с портала тоже пропала примерно тысяча датасетов.
Марк Филлипс из Университета Северного Техаса, который участвует в проекте End of Term Web Archive, объясняет, почему так сложно сохранить содержимое агрегаторов вроде data.gov. "Мы часто сталкиваемся с неизвестными: непонятно, что именно хранится, как часто обновляется и куда может переместиться. На портале обычно остаются только описания, а сами файлы разбросаны по разным местам – сайтам штатов, университетов, облачным хранилищам Amazon или Microsoft", – говорит он.
С начала 2024 года команда Филлипса вместе с Internet Archive, Common Crawl и Университетом Северного Техаса сканирует правительственные сайты. Им удалось собрать сотни терабайт информации, включая данные с data.gov. Этот проект запускается при каждой смене администрации, чтобы сохранить максимум государственных наработок.
Когда Трамп впервые был президентом, научная информация пропадала разными способами. Институт экологических данных и управления (EDGI) в 2019 году показал, как администрация Трампа разрушала федеральную систему климатической информации. Файлы не только удаляли – их прятали глубже в архивы, меняли описания, усложняли поиск. Министерство транспорта несколько раз перемещало данные о климате, пока они окончательно не исчезли.
Джеймс Джейкобс из библиотек Стэнфорда и группы Free Government Information называет data.gov "правительственным ящиком для данных". По его словам, портал заставил федеральные ведомства задуматься о том, как собирать и хранить информацию. Но четких правил так и не появилось – одни агентства активно пользуются платформой, другие загружают пару таблиц Excel и считают работу выполненной.
"Часть ссылок на data.gov ведет на устаревшие страницы агентств, которые уже не существуют. Серьезные проблемы возникают, когда ведомство обновляет сайт и меняет базовый домен – все ссылки на важную информацию перестают работать", – поясняет Джейкобс. "Какие-то данные теряются из-за естественного устаревания и смещения контента, а какие-то – из-за политики администрации Трампа, особенно если речь идет о разнообразии и инклюзивности".
Государственные данные было непросто сохранять и до интернета. Раньше документы печатали на бумаге и рассылали по библиотекам через Federal Depository Library Program. С появлением цифровых технологий информация стала доступнее, но и уязвимее – теперь документы существуют только в электронном виде, а их объем вырос в десятки раз.
По словам Джейкобса, "в эпоху бумаги библиотеки неплохо справлялись с сохранением документов по инерции – получали материалы, каталогизировали их и хранили на полках, пока они не понадобятся читателям". В цифровую эпоху эта система рухнула. Библиотеки больше не получают физические копии, а у государственных органов нет четких правил по сохранению электронных публикаций.
Точно оценить масштаб потерь пока невозможно – нужно время, чтобы проанализировать каждый случай. Как подчеркивает Филлипс, главная проблема в том, что все данные собраны в одном месте – это делает их слишком уязвимыми. "Раньше правительство распределяло информацию по библиотекам по всей стране, чтобы обеспечить широкий доступ и защиту от потерь. С научными данными такого уже не происходит".
И мы тоже не спим, чтобы держать вас в курсе всех угроз