Mustafin Magazine Logo
loupe

Реклама

  1. Главная
  2. arrow-right
  3. Контент
  4. arrow-right
  5. Диджитал
img
arrow

22.05.2025

Изображение сгенерировано нейросетью

Текст: Руслан Абдряев

Что вызывает проблемы у нейросетей в 2025 году

Удивительно, но некоторые базовые задачи все еще не под силу искусственному интеллекту

За громкими заявлениями о сверхспособностях искусственного интеллекта часто скрываются серьезные ограничения. Речь не о проблемных картинках вроде переполненных винных бокалов – их нейросети создавать наконец-то научились. Недавние исследования выявили критические слабости современных ИИ-моделей. Они путаются в датах и времени, не справляются с обслуживанием клиентов, а в юридической и информационной сферах бездумное использование ИИ способно привести к плачевным последствиям.

Автор Mustafin Magazine выбрал несколько сфер, в которых нейросети еще далеки от статуса надежных помощников.

У ИИ проблемы с временем и датами

habrastorage.org

habrastorage.org

Все большие языковые модели до сих пор испытывают проблемы со считыванием времени и дат по изображениям. К такому выводу пришли ученые Эдинбургского университета, которые протестировали семь продвинутых мультимодальных ИИ-моделей от OpenAI, Meta, Google, Anthropic, Alibaba и ModelBest. В рамках исследования научная группа предлагала моделям ответить на вопросы, связанные со временем и датами, по изображениям аналоговых часов и календарей.

Например, ИИ-модели должны были определить время по часам с римскими цифрами, с секундными стрелками и без таковых, а также с циферблатами разных цветов. Менее чем в 25% случаев модели называли время правильно. Наивысший результат продемонстрировала Gemini-2.0 от Google. Стилизованные и римские цифры вызывали ошибки чаще всего, не помогло и исключение секундной стрелки. Ученые указали на фундаментальные проблемы моделей в обнаружении и интерпретации угла.

С календарями у ИИ получалось немного лучше. Самая эффективная модель, o1 от OpenAI, ошибалась в 20% случаев. Ученые резюмировали, что сочетание пространственной осведомленности, контекста и базовой математики оказалось слабостью существующих нейросетей при считывании времени и дат.

ИИ-поисковики плохо работают с источниками информации

Freepik / rawpixel.com

Freepik / rawpixel.com

Восемь поисковых служб на базе ИИ демонстрируют серьезные проблемы при работе с новостными материалами, обнаружили исследователи Центра цифровой журналистики издания Columbia Journalism Review. ИИ-поисковики часто давали неверные ответы на запросы об источниках новостей. Если у ChatGPT Search уровень некорректных ответов был на 67%, то у Perplexity и Grok 3 — 37% и 94%.

В рамках своей работы эксперты предоставляли ИИ-моделям фрагменты реальных новостных материалов и просили определить заголовок, источник, первоначального издателя и дату публикации статьи. ИИ давал неверные ответы даже без надежной информации, пытаясь выглядеть правдоподобным. Свыше половины ссылок от Gemini и Grok 3 вели на выдуманные или неработающие адреса.

ИИ – не самый лучший работник

Freepik / pch.vector

Freepik / pch.vector

В середине мая шведский технологический стартап Klarna фактически признал провал проекта использования ИИ-агентов OpenAI при обслуживании клиентов. В 2023 году компания разорвала маркетинговые контракты, а через год вовсе решила уволить команду по обслуживанию клиентов, чтобы заменить сотрудников ИИ-агентами. Теперь же Klarna вновь набирает сотрудников-людей, которые будут удаленно общаться с клиентами.

А стоило ли?

Стартап передал ИИ такие задачи, как перевод и анализ данных, что позволило сэкономить $10 млн за первый месяц. В прошлом году Klarna и OpenAI подчеркивали, что ИИ выполнял работу “700 штатных агентов”. Теперь же глава стартапа Себастьян Семятковски отметил, что стоимость стала преобладающим фактором при организации процессов, в результате качество работы ИИ оказалось низким.

Klarna оказалась не единственной компанией, разочаровавшейся в ИИ. В прошлом месяце исследовательская платформа Orgvue сообщила, что более 55% руководителей бизнеса в Великобритании пожалели о своем решении по замене сотрудников на ИИ. 

В своем эксперименте исследователи Университета Карнеги – Меллона создали фиктивную компанию-разработчика программного обеспечения с ИИ-сотрудниками. Лучший из таких работников выполнил лишь 24% порученных задач. Общая производительность персонала с искусственным разумом была чрезвычайно низкой. Более того, исследование ученых Университета Дьюка показало, что использование ИИ-инструментов способно навредить профессиональной репутации компании.

Ошибки ИИ в юриспруденции

Freepik

Freepik

Юридическая фирма Morgan&Morgan предупредила своих сотрудников о “галлюцинациях” ИИ-инструментов, которые приводят к ошибкам в судебных документах. Часто подобные инструменты выдумывали судебные прецеденты, а использование такой информации в работе чревато увольнением и даже уголовной ответственностью. Суд установил, что двое юристов Morgan&Morgan включили фиктивные ссылки на дела в иск против Walmart.

Проблема заключается в том, что модели генерируют ответы на основе статистических закономерностей, полученных из крупных датасетов, а не путем проверки информации в этих наборах данных. Кроме того, для юриспруденции особенно важна актуальность информации, поскольку каждый день принимают новые законы и вступают в силу решения судов. К сожалению, ИИ-модели обновляются гораздо реже, поэтому нейросети в ряде случаев оставляют пользователей один на один с устаревшей информацией.

Не стоит забывать, что логика ИИ-моделей отличается от рассуждений специалистов и юристов в частности. Нейросети воспроизводят паттерны, заложенные при обучении, а не оценивают условия по отдельности. При всей схожести с алгоритмами нормы права нельзя напрямую транслировать в код из-за наличия множества оценочных терминов и контекста, которые позволяют трактовать одно положение по-разному.

Ранее автор Mustafinmag узнал, что умеют нейросети для генерации видео в 2025 году.