Создан Python–пакет, делающий новостные статьи менее предвзятыми с помощью ИИ

Создан Python–пакет, делающий новостные статьи менее предвзятыми с помощью ИИ

Пакет был совместно разработан исследователями из Канады, Индии, Китая и Австралии.

Система, названная Dbias, использует различные технологии машинного обучения и базы данных для создания трехэтапного кругового рабочего процесса, который исправляет текст до тех пор, пока он не станет объективным или нейтральным.

Текст новостного фрагмента, идентифицированный как “предвзятый”, преобразуется Dbias в более нейтральную версию.

Система представляет собой автономный пайплайн, способный выполнять многоразовые задания. Пакет можно установить через Pip от Hugging Face и интегрировать его в существующие проекты в качестве дополнительного этапа, дополнения или плагина.

Похожая система от Google Docs подверглась критике из–за отсутствия возможности настройки. У Dbias нет такой проблемы – ее можно обучить на нужном наборе новостей, создавая индивидуальные рекомендации для преобразования текста. Основное отличие Dbias от других похожих систем заключается в том, что он сам изменяет текст, делая его более нейтральным – пользователю не нужно заменять слова и выражения, ИИ сделает всю работу за него.

Концепт архитектуры рабочего процесса Dbias.

Рабочий процесс системы состоит из трех этапов:

  1. Обнаружение предвзятости в тексте. Для этого Dbias использует пакет DistilBERT – оптимизированную нейросетевая модель–трансформер от Google, на которой строится большинство инструментов автоматической обработки языка. Для данного проекта DistilBERT был дополнительно обучен с использованием набора данных Media Bias Annotation (MBIC). MBIC состоит из новостных статей, взятых с Huffington Post, USA Today и MSNBC. Исследователи самостоятельно расширили набор данных, чтобы система могла выявлять предвзятость, связанную с расовой/этнической принадлежностью, образованием, языком, религией и полом.

  2. Распознавание необъективных слов и выражений с помощью Named Entity Recognition (NER).

  3. Устранение предвзятости. На этом этапе система использует маскированное языковое моделирование (MLM) для устранения необъективных слов и выражений. При необходимости, весь текст, который был получен в результате этого этапа, можно пропустить через систему еще несколько раз, пока не будет сгенерировано несколько подходящих слов и выражений.

Система была создана и обучена на базе Google Collab Pro с использованием видеоускорителя NVIDIA P100 с 24 ГБ видеопамяти. Размер батча (количество обучающих примеров за одну итерацию) был равен 16. На данный момент у системы есть две метки для текстов – biased и unbiased (предвзятый и непредвзятый).



Наш канал горячее, чем поверхность Солнца!

5778 К? Пф! У нас градус знаний зашкаливает!

Подпишитесь и воспламените свой разум