Создателей ИИ-кодера обвинили во лжи

Месяц назад Cognition представила Devin, «первого ИИ-инженера программного обеспечения», который, как утверждалось, может не только решать инженерные задачи, но и успешно выполнять задания на сайтах для фрилансеров. Создатели продемонстрировали способности ИИ на реальном кейсе Upwork, поразив аудиторию и заставив настоящих программистов опасаться за свои рабочие места.

Однако, похоже, они могут свободно вздохнуть — по крайней мере пока, так как Cognition недавно обвинили во лжи о производительности Devin в своих рекламных видео, включая это конкретное задание.

Канал на YouTube под названием Internet of Bugs недавно опубликовал видео с лаконичным названием «Разоблачение Devin: ложь «первого ИИ-инженера программного обеспечения» на Upwork раскрыта». В нем ведущий разбирает этот пример выполнения ИИ работы на Upwork.

Позже создатель этой задачи, Фелипе также рассказал, что ИИ сделал неправильно, и есть некоторые важные детали, которые стоит рассмотреть.

Во-первых, Devin не справился с самой важной частью задания — пониманием проблемы. В оригинальном посте говорилось:

Я хочу сделать инференцию с моделями в этом репозитории. Ваш результат будет подробной инструкцией, как сделать это в EC2 инстансе в AWS. Пожалуйста, предоставьте вашу оценку для выполнения этой работы.

Фелипе не смог сам выполнить задачу и согласовать различные версии ПО, поэтому ИИ должен был сделать это за него. Однако Cognition скормила Devin только первое предложение и сказала ему «разобраться». Учитывая, что запрос был во второй части, это значительная ошибка со стороны компании, поэтому ИИ, естественно, не смог дать ожидаемый результат.

Более того, как отметил инженер по машинному обучению и исследователь ИИ Деванш, сама работа, по-видимому, была

Подробнее читайте на beltion-game.com

Предыдущая статья