Невинный документ с формами способен читать ваши файлы и сканировать внутренние адреса, если Tika осталась без свежего патча.

4 декабря 2025 года Apache Software Foundation раскрыла информацию о критической уязвимости CVE-2025-66516 с максимальной оценкой CVSS 10.0 в библиотеке Apache Tika. Эта библиотека используется в поисковых движках, ECM-системах, DLP и платформах для массовой обработки документов, поэтому проблема затрагивает не только разработчиков, но и множество бизнесовых сервисов, где Tika выступает скрытым инфраструктурным компонентом.
Уязвимость связана с обработкой XFA-разметки внутри PDF. При разборе таких документов Tika не ограничивает использование внешних XML-сущностей, что открывает классическую XXE-атаку. Специально подготовленный PDF-файл может заставить Tika читать произвольные файлы с хоста или инициировать SSRF-запросы к внутренним сетевым ресурсам, которые обычно недоступны извне.
Исправление доступно в релизе Apache Tika 3.2.2. В нём обновлены и tika-core, и модуль tika-parser-pdf-module, поэтому для закрытия уязвимости недостаточно обновить только PDF-парсер — нужно обновлять связку целиком.
По данным СКИПА, сейчас в Рунете насчитывается около 200 хостов, использующих Apache Tika, при этом потенциально уязвимы около 95 процентов из них. Клиенты PentOps были заранее уведомлены о проблеме и получили рекомендации по обновлению и снижению рисков. Можно предположить, что реальное число установок Tika значительно выше, так как библиотеку часто встраивают как транзитивную зависимость и далеко не всегда явно фиксируют в публичной инфраструктуре.
Под удар попадают установки, в которых используется tika-core версий с 1.13 по 3.2.1 включительно, а также модуль tika-parser-pdf-module версий с 2.0.0 по 3.2.1. В линейке 1.x уязвимость присутствует в составе сборки tika-parsers до версии 1.28.5 включительно. Ключевой момент в том, что проблема затрагивает не только PDF-модуль, а именно XML-парсер внутри tika-core, поэтому попытка ограничиться обновлением одной зависимости не даст полноценной защиты.
Эксплуатация уязвимости возможна в типичных сценариях автоматической обработки документов. Достаточно, чтобы Tika принимала на вход PDF-файлы с включённой XFA-разметкой, парсинг выполнялся автоматически, а сам сервис имел доступ к сети или локальной файловой системе. Использование sandbox-инструментов вроде Firejail, Docker или AppArmor, а также жёстких сетевых ACL действительно снижает риск, но полностью его не снимает, так как при удачной XXE-атаке злоумышленник всё равно работает в пределах выделенного контейнера и его прав.
Признаками возможной компрометации могут быть ошибки или аномалии при обработке PDF с XFA-формами, неожиданные исходящие запросы от сервисов Tika к непривычным доменам, попытки обращения к локальным путям наподобие file:///etc/passwd или каталогов пользователей, а также резкий рост нагрузки и нетипичные исключения в процессах ingest и parsing. Дополнительным тревожным сигналом служат логи приложений, использующих Tika, где появляются ошибки XML-парсера или массовые переходы в упрощённый fallback-режим обработки документов.
Рекомендация по умолчанию для всех пользователей одна и достаточно жёсткая, учитывая CVSS 10.0. Необходимо обновить Apache Tika до версии 3.2.2, при этом убедиться, что одновременно обновлены и tika-core, и PDF-модуль. Если по каким-то причинам оперативно провести обновление нельзя, имеет смысл временно отключить или максимально ограничить обработку PDF с XFA, добавить дополнительную валидацию и фильтрацию входящих файлов, а также изолировать процессы Tika в отдельные контейнеры с минимальными правами доступа к файловой системе и запрещёнными исходящими соединениями. Отдельно стоит проверить цепочки зависимостей в приложениях, так как Tika часто подтягивается транзитивно через поисковые модули и ECM-платформы.
Завершающий шаг — аудит логов. Стоит просмотреть журналы Tika и всех интегрированных с ней сервисов, где выполнялся автоматический анализ PDF, уделяя особое внимание нестандартным ошибкам парсинга, всплескам сетевой активности и попыткам обращения к внутренним ресурсам. С учётом того, что уязвимость уже подробно описана и имеет максимальный балл по CVSS, откладывать обновление или разбор следов активности крайне рискованно.