Apache Hadoop - это открытый фреймворк для обработки и хранения больших объёмов данных на распределённых кластерах. Он включает в себя:
• HDFS - распределённую файловую систему для хранения больших объёмов данных;
• YARN - менеджер ресурсов, отвечающий за управление вычислительными ресурсами в кластере;
• MapReduce - модель параллельных вычислений, которая позволяет обрабатывать данные в распределённом режиме.
Hadoop позволяет анализировать как структурированные, так и неструктурированные данные и используется в различных областях, включая анализ больших данных и машинное обучение.