AI Index: машины только начинают свой путь.
Институт искусственного интеллекта при Стэнфордском университете (HAI) представил свой седьмой ежегодный отчет AI Index , отражающий стремительную эволюцию ИИ и его растущее влияние на нашу повседневную жизнь. В этом выпуске информации больше, чем в предыдущих, ведь отрасль развивается колоссальными темпами.
Отчет охватывает широкий спектр тем — от секторов, активно внедряющих ИИ, до стран, обеспокоенных потерями рабочих мест. Однако одним из наиболее примечательных выводов стало сокращение разрыва между способностями человека и машины в решении сложных задач.
К примеру, уже к 2015 году ИИ превзошел людей в классификации изображений. Затем, в 2017-м, он обогнал нас в базовом понимании текста, в 2020-м — в визуальном рассуждении, а в 2021-м — в умении делать логические выводы на основе естественного языка. Прогресс в этой области настолько стремителен, что многие бенчмарки уже потеряли свою актуальность. Исследователи спешно разрабатывают новые, более сложные тесты, чтобы проверить, остались ли вообще различия между интеллектом человека и машины и в чем они выражаются.
На графике линии разных цветов указывают на уровень способностей ИИ в определенных сферах. Пунктирная линия — средний показатель для человека. Данные получены при использовании старых, возможно уже устаревших бенчмарков, однако общая тенденция предельно очевидна. Траектории развития ИИ поражают специалистов, особенно почти вертикальные линии, отражающие результаты самых последних тестов. При этом важно помнить, что машины подобны виртуальным младенцам, лишь начинающим свой путь.
В 2023 году у ИИ по-прежнему возникали трудности со сложными когнитивными задачами вроде решения продвинутых уравнений и визуального рассуждения. Впрочем, термин «трудности» здесь не совсем подходит — на самом деле он демонстрировал впечатляющие результаты.
За два последних года в решении математических задач произошел большой скачок. Если в 2021 году алгоритмы могли справиться лишь с 6,9% задач из набора MATH, состоящего из 12 500 олимпиадных примеров, то в 2023-м модель на базе GPT-4 решила уже 84,3% из них. Для сравнения, у людей этот показатель составил 90%.
Визуальное общее рассуждение (VCR) оценивает способность ИИ использовать здравый смысл в визуальном контексте для логических умозаключений. Например, увидев картинку с котом на столе, ИИ с VCR должен предположить, что кот может спрыгнуть со стола или что стол достаточно прочный, чтобы выдержать его вес. В 2022-2023 годах показатель VCR вырос на 7,93% до 81,6 из 100 баллов по сравнению с 85 баллами у человека. Еще пять лет назад трудно было себе представить, что компьютер сможет понимать контекст изображения на таком уровне.
В наши дни ИИ широко используется для создания текстов в различных стилях и сферах. Однако большие языковые модели (LLM) по-прежнему подвержены «галлюцинациям» — склонности выдавать вымышленную или ошибочную информацию за достоверные факты.
В прошлом году эта проблема привлекла широкое общественное внимание после того, как нью-йоркский юрист Стивен Шварц, не проверив ответы ChatGPT, включил в судебные документы ссылки на несуществующие законодательные акты. Судья быстро распознал подлог и оштрафовал Шварца на 5000 долларов.
Бенчмарк HaluEval, использованный для оценки галлюцинаций LLM, показал, что для многих моделей это по-прежнему серьезная проблема. Помимо галлюцинаций, LLM пока плохо справляются с заданиями на правдивость высказываний. В тесте TruthfulQA, проверяющем истинность 817 утверждений по таким темам, как здравоохранение, право, финансы и политика, GPT-4 недавно достигла наивысшего результата - 0,59 балла из 1, что почти втрое выше, чем у моделей на базе GPT-2, протестированных в 2021 году.
В отчете также оценивались возможности генерации изображений по текстовым подсказкам с помощью бенчмарка HEIM, который учитывает 12 ключевых параметров, важных для практического применения сгенерированных материалов. По результатам экспертной оценки людьми ни одна модель не продемонстрировала абсолютного превосходства по всем критериям. DALL-E 2 от OpenAI показала наилучшие результаты по части соответствия входному текстовому запросу. А Dreamlike Photoreal на базе Stable Diffusion получила высшие баллы по качеству, эстетике и оригинальности созданных изображений.
Хотя достижения ИИ в 2023 году и поражают воображение, они меркнут на фоне еще более впечатляющих событий 2024 года. В этом году мир стал свидетелем выпуска потенциально революционных разработок вроде Suno, Sora, Google Genie, Claude 3, Channel 1 и Devin. Каждый из этих продуктов способен коренным образом преобразить целые отрасли. Однако наибольший интерес вызывает таинственная GPT-5 - модель столь широких возможностей и масштаба, что она может затмить и объединить в себе всех конкурентов.
Очевидно, что искусственный интеллект никуда не денется. Его стремительное развитие в 2023 году, отраженное в отчете, показывает, что ИИ будет развиваться все быстрее, сокращая разрыв с человеческими возможностями. Следующий выпуск AI Index непременно станет еще более содержательным и впечатляющим.
Ладно, не доказали. Но мы работаем над этим