Время контролировать технологии будущего уже наступило.
В последнее время активно развиваются исследования в области искусственного интеллекта (ИИ), которые могут принести как пользу, так и вред. Среди возможных опасностей обсуждаются риски использования больших языковых моделей (LLM) для создания оружия. В ответ на эти опасения эксперты разработали новый инструмент оценки - набор данных под названием "Прокси оружия массового поражения" (Weapons of Mass Destruction Proxy, WMDP), который позволяет определить наличие опасной информации в ИИ-моделях и методы для её удаления, не влияя на общие функциональные возможности моделей.
Исследователи, работая над созданием WMDP, консультировались с экспертами в области биобезопасности, химического оружия и кибербезопасности для составления вопросов, оценивающих знания ИИ по этим темам. Всего было создано 4000 вопросов с выбором ответа, которые не содержат чувствительной информации и могут быть опубликованы.
Этот набор данных предназначен не только для оценки способностей ИИ понимать опасные темы, но и как основа для разработки методов "разучивания" этих знаний моделями. Команда представила новый метод разучивания под названием CUT, который удаляет опасные знания, сохраняя при этом возможности ИИ в других областях.
Важность этой работы подчеркивается на высшем уровне. Многие страны выражают обеспокоенность по поводу возможного использования ИИ для разработки опасного оружия. В октябре 2023 года президент США Джо Байден подписал указ, направленный на обеспечение лидерства США в использовании ИИ, с учетом как его потенциала, так и связанных с ним рисков. В указе изложены восемь принципов ответственного использования ИИ, включая безопасность, конфиденциальность, равенство, защиту прав потребителей и инновации.
WMDP представляет собой важный шаг в обеспечении этической и ответственной разработки ИИ-технологий. Он призван помочь создателям языковых моделей гарантировать, что их продукты не будут использованы в опасных или противоправных целях, одновременно сохраняя их ценность для законных применений. Этот инструмент также демонстрирует приверженность научного сообщества принципам осмотрительности и проактивного подхода к управлению рисками, связанными с ИИ.
Исследование опубликовано в arXiv .
5778 К? Пф! У нас градус знаний зашкаливает!