Как BERT обучается предубеждениям и как это повлияет на работу будущего

Исследователи утверждают, что компьютерные системы учатся по множеству оцифрованных книг и новостных статей, из-за которых новые технологии могут «заразиться» устаревшими взглядами на мир. 

Осенью прошлого года компания Google представила прорывную технологию в области искусственного интеллекта под названием BERT. Из-за ее появления ученые теперь совсем по-другому строят системы, которые учатся распознавать устную и письменную человеческую речь. 

Технология BERT сейчас используется в нескольких сервисах, в том числе в поисковой системе Google, но возникла проблема: похоже, искусственный интеллект учится нашим предубеждением, как ребенок, повторяющий плохое поведение своих родителей.

BERT – одна из многих систем ИИ, которые учатся по огромному количеству оцифрованной информации, включая старые книги, статьи в Wikipedia и новости. В этих материалах очень много предубеждений, накопившихся за века и появившихся совсем недавно. 

Новые, более сложные системы ИИ используются во все большем количестве разнообразных продуктов: в контекстной рекламе онлайн, корпоративном программном обеспечении, цифровых помощниках вроде Siri (Apple) и Alexa (Amazon) и т.д. Соответственно, ІТ компании должны принять меры против предубеждений, которые неожиданно обнаруживаются в системах ИИ. 

Почему BRET и другие языковые модели допускают ошибки

Тем не менее, ученые до сих пор не до конца разобрались в том, как работают универсальные языковые модели наподобие BERT. Ошибки, которые допускает их новый искусственный интеллект, часто застают их врасплох. 

Как-то раз ученый-компьютерщик из Сан-Франциско Роберт Манро ввел в BERT 100 слов из английского языка: jewelry («ювелирные изделия»), baby («ребенок»), horses («лошади»), house («дом»), money («деньги»), action («действие») и т.п. В 99 случаях из 100 система BERT чаще связывала те или иные слова с мужчинами или с женщинами, хотя большинство слов были нейтральными, за исключением слова «мама».

«Это неравенство сохраняется веками», – заявил Манро, доктор наук в области компьютерной лингвистики, ранее руководивший проектом естественного языка и перевода в Amazon Web Services. «Системы наподобие BERT позволяют этим предубеждениям жить дальше», – добавил он. 

В своем блоге Манро описывает, как он анализировал языковые сервисы Google и Amazon Web Services, которые позволяют предприятиям добавлять языковые навыки к новым приложениям.

Ни один из сервисов не распознал «hers» («ее») как местоимение, хотя оба легко распознали «his» («его»).

Исследователи давно предупреждали о вероятном возникновении предубеждений в системах ИИ, которые учатся, «впитывая» огромное количество информации – в том числе системах распознавания лиц, используемых в полиции и других государственных структурах, а также популярных интернет-сервисах от технологических гигантов вроде Google и Facebook. Например, в 2015 году приложение Google Photos «попалось» на том, что отмечало фотографии афроамериканцев тэгом «горилла». Сервисы, которые анализировал доктор Манро, тоже демонстрировались предвзятость в отношении женщин и людей с цветом кожи, отличным от белого.

Позиция Google и Amazon

«Мы знаем, что проблема существует, и принимаем необходимые меры для ее устранения, – заявил представитель Google. – Решение проблемы предубеждений в наших системах – это один из наших главных приоритетов и основных принципов в вопросах ИИ». 

В официальном заявлении Amazon говорится, что компания «выделяет значительные ресурсы для повышения точности и борьбы с предубеждениями в технологиях, включая строгий сравнительный анализ, тестирование и инвестирование в разнообразные данные режима обучения».

Как обучаются универсальные языковые модели

Системы наподобие BERT слишком сложные для того, чтобы спрогнозировать, что они будут делать дальше.

Даже их разработчики не понимают, почему они так себя ведут.

BERT – одна из многих универсальных языковых моделей, используемых в промышленности и научных кругах. Есть еще другие, например, ELMO, ERNIE и GPT-2. 

Они изучают нюансы языка, анализируя огромное количество текстов. Система, которую разработала OpenAI – лаборатория искусственного интеллекта в Сан-Франциско – проанализировала тысячи книг, в том числе любовные романы, детективы и научную фантастику. Система BERT проанализировала тот же набор книг и статьи из Wikipedia. 

В процессе каждая система выполняла конкретное задание. Система от OpenAI училась предугадывать следующее слово в предложении, а BERT – определять пропущенное слово в предложении (Например, I want to ___ that car because it is cheap, «Я хочу ___ этот автомобиль, потому что он дешевый»).

Выполняя такие задания, BERT находит общие принципы построения предложений, т.е. учится понимать связную человеческую речь. Затем он может научиться выполнять другие задания, проанализировав еще больше данных. Это позволяет приложениям на основе ИИ развиваться намного быстрее, чем считалось возможным. 

«BERT кардинально все изменил, – заявил Джон Боэннон, директор научного отдела Primer, стартапа в Сан-Франциско, специализирующегося на технологиях естественного языка. – Теперь одну лошадку можно научить множеству разных трюков».

BERT делает успехи...в том числе и в предубеждениях

Компания Google использовала систему BERT для усовершенствования своей поисковой системы. Раньше, если пользователь ввел в строке поиска Do estheticians stand a lot at work? («Приходится ли косметологам много стоять на работе?»), поисковая система Google не понимала запрос. В английском языке у слов «stand» и «work» очень много значений, и они могут использоваться и как глаголы, и как имена существительные. Теперь, благодаря BERT, Google правильно отвечает на этот вопрос, давая ссылку на материалы, в которых рассказывается о том, приходится ли прилагать много физических усилий человеку, работающему в сфере ухода за кожей. 

Тем не менее, согласно исследованию, проведенному специалистами Carnegie Mellon University, инструменты наподобие BERT могут перенимать наши предубеждения. Например, в научной работе говорится, что BERT часто связывает слово «программист» с мужчинами, нежели с женщинами. Предвзятость в языке может составить особо сложную проблему в диалоговых системах.

Поскольку эти новые технологии распространяются быстро, предубеждения могут возникнуть где угодно.

В компании Primer доктор Боэннон и его команда инженеров недавно использовали BERT для разработки системы, которая позволяет предприятиям автоматически определять настроение заголовков, сообщений в Twitter и других электронных средств массовой информации. Предприятия используют такие инструменты во время торговли акциями и при принятии других важных решений. После того, как инструмент «прошел обучение», доктор Боэннон заметил стабильно возникающее предубеждение. Если сообщение в Twitter или заголовок содержало слово «Трамп», инструмент почти всегда определял их настроение как «негативное» независимо от того, что на самом деле говорилось в таком сообщении или заголовке. 

Работа будущего

«Это очень сложно. Нужно много времени и кропотливой работы, – заявил Боэннон. – Мы нашли очевидное предубеждение, но сколько других мы даже не заметили?». 

По словам Боэннона, специалистам в области информатики нужны те же навыки, что и биологам. Биологи изучают работу клеток, а инженеры-программисты должны изучать работу таких систем, как BERT.

Недавно Google представила новую версию своей поисковой системы. При этом руководство компании признает, что проблема существует. Они утверждают, что их системы проходят тщательную проверку с целью выявления всех таких предубеждений. 

Исследователи только начинают осознавать последствия присутствия подобных ошибок в системах наподобие BERT.

Тем не менее, как показал Манро, многие предприятия предпочитают на обращать внимания даже на очевидные предубеждения.

После того, как Манро указал на проблему, Amazon исправила ошибку. Компания Google заявила, что работает над решением проблемы. 

По словам генерального директора Primer Шона Гурли, проверка «поведения» таких новых технологий приобретет настолько большое значение, что появится целая новая категория специалистов, которым компании будут платить за обнаружение разнообразных предубеждений и других неожиданных форм «поведения» их алгоритмов. «Я считаю, что эта новая отрасль будет приносить миллиарды долларов прибыли», – заявил Гурли. 

 

Присоединяйтесь к менеджмент-турам компании FastForward для получения опыта, знаний и ценных бизнес-контактов.

 

По материалам сайта https://www.nytimes.com