Продажная популярность генеративного искусственного интеллекта вызывает серьезные опасения, считают исследователи из Великобритании и Канады.
Чат-боты, работающие на базе моделей, вроде ChatGPT, обучаются на огромном объеме данных, и множество крупных компаний уже внедрили такой генеративный ИИ в свои бизнес-процессы. Однако возникает проблема: при обучении ИИ на собственно сгенерированных данных существует риск коллапса обученных моделей, что приводит к появлению неадекватного контента и большому числу ошибок.
Коллапс модели возникает, когда ИИ получает все больше данных, созданных им самим. Постепенно модель становится все менее эффективной, и ее ответы теряют разнообразие. Исследователи утверждают, что для предотвращения коллапса моделей необходимо достичь правильного баланса в распределении данных, относящихся к малочисленным группам, чтобы сохранить их особенности и избежать искажений.
Однако это оказывается сложной задачей, поскольку моделям сложно обучиться на редких событиях. Авторы исследования также рекомендуют, чтобы компании, занимающиеся разработкой ИИ, уделяли внимание вопросу прогнозирования влияния человеческого фактора на процесс создания данных в своих приложениях. Стандарты и правила, касающиеся защиты данных в сфере искусственного интеллекта, могут нанести ущерб экономическим преимуществам компаний и сделать их уязвимыми для возможных судебных исков.