Published on

Искусственный интеллект: Маск говорит об истощении обучающих данных и будущем синтетических данных

Авторы
  • avatar
    Имя
    Ajax
    Twitter

Искусственный интеллект: Данные для обучения на исходе - мнение Маска

Элон Маск и ряд экспертов в области искусственного интеллекта пришли к согласию, что ресурсы реальных данных, используемые для обучения моделей ИИ, практически исчерпаны. В ходе прямой трансляции с председателем Stagwell Марком Пенном, Маск отметил, что общий объем накопленных человеческих знаний, применимый для обучения ИИ, в основном исчерпан, и это произошло примерно в прошлом году.

Маск, как руководитель компании xAI, занимающейся искусственным интеллектом, поддержал мнение бывшего главного научного сотрудника OpenAI Ильи Суцкевера, высказанное на конференции NeurIPS по машинному обучению. Суцкевер также считает, что индустрия искусственного интеллекта достигла так называемого "пика данных", и предсказывает, что нехватка обучающих данных приведет к фундаментальным изменениям в методах разработки моделей.

Синтетические данные: Путь в будущее искусственного интеллекта

Маск предлагает синтетические данные, то есть данные, сгенерированные самими моделями ИИ, в качестве ключевого решения текущей проблемы нехватки данных. Он считает, что единственный эффективный способ восполнить недостаток реальных данных — это использование искусственного интеллекта для создания обучающих данных, позволяя ИИ в какой-то степени самооцениваться и самообучаться.

В настоящее время такие технологические гиганты, как Microsoft, Meta, OpenAI и Anthropic, уже начали использовать синтетические данные для обучения своих флагманских моделей ИИ. Прогнозы Gartner показывают, что к 2024 году 60% данных, используемых в проектах ИИ и аналитики, будут получены синтетическим путем.

  • Microsoft Phi-4: Эта модель с открытым исходным кодом обучена с использованием как синтетических, так и реальных данных.
  • Модель Google Gemma: Также использует смешанный подход к обучению.
  • Anthropic Claude 3.5 Sonnet: Эта мощная система также использует часть синтетических данных.
  • Серия моделей Meta Llama: Была доработана с использованием данных, сгенерированных ИИ.

Преимущества и вызовы синтетических данных

Помимо решения проблемы нехватки данных, синтетические данные также демонстрируют значительные преимущества в плане контроля затрат. Например, стартап в области искусственного интеллекта Writer заявляет, что их модель Palmyra X 004 была разработана почти полностью на синтетических данных, а стоимость разработки составила всего 700 000 долларов, что значительно ниже предполагаемых 4,6 миллиона долларов для аналогичной модели OpenAI.

Однако синтетические данные не идеальны. Исследования показывают, что синтетические данные могут привести к снижению производительности модели, делая ее результаты менее креативными и даже усиливая предвзятость, что может серьезно повлиять на ее функциональность. Это происходит потому, что если данные, используемые для обучения модели, изначально содержат предвзятость и ограничения, то и синтетические данные, сгенерированные моделью, унаследуют эти проблемы.

Подробнее о проблемах синтетических данных

  1. Снижение креативности: Модели, обученные на синтетических данных, могут стать менее способными к генерации новых идей, поскольку они, по сути, учатся на отражении собственных знаний, а не на реальном мире. Это может привести к тому, что ИИ будет повторять уже известные паттерны, а не создавать что-то принципиально новое.

  2. Усиление предвзятости: Если исходные данные, на которых обучается ИИ, содержат предвзятость, то синтетические данные, сгенерированные этой моделью, также будут содержать эту предвзятость. Это может привести к тому, что ИИ будет принимать дискриминационные решения или воспроизводить несправедливые стереотипы. Например, если ИИ обучался на данных, где преобладают мужчины в определенной профессии, он может недооценивать женщин при выборе кандидатов на работу в этой сфере.

  3. Проблемы с разнообразием: Синтетические данные могут быть менее разнообразными, чем реальные данные, что может привести к тому, что модель ИИ будет менее способна обрабатывать широкий спектр ситуаций и условий. Это особенно важно, когда ИИ используется в областях, где необходима гибкость и адаптивность, например, в медицине или автономном вождении.

  4. Ограниченная генерализация: Модели, обученные на синтетических данных, могут иметь проблемы с обобщением своих знаний на новые, ранее не виданные ситуации. Это связано с тем, что синтетические данные могут не отражать всей сложности и разнообразия реального мира.

Преимущества синтетических данных

Несмотря на перечисленные проблемы, синтетические данные имеют ряд важных преимуществ, которые делают их привлекательной альтернативой реальным данным.

  • Масштабируемость: Синтетические данные могут быть сгенерированы в любом количестве, что позволяет легко масштабировать обучающие наборы и удовлетворять растущие потребности в данных для обучения все более сложных моделей ИИ.
  • Контроль: Синтетические данные позволяют контролировать качество и содержание данных, что может быть полезно для уменьшения предвзятости и повышения точности моделей ИИ.
  • Конфиденциальность: Синтетические данные не содержат личной информации, что делает их более безопасными для использования в областях, где конфиденциальность данных является важной проблемой.
  • Снижение затрат: Генерация синтетических данных может быть значительно дешевле, чем сбор и обработка реальных данных, что делает обучение ИИ более доступным.

Будущее синтетических данных

Синтетические данные, вероятно, будут играть все более важную роль в будущем развития искусственного интеллекта. По мере того, как модели ИИ становятся все более сложными, а доступ к реальным данным становится все более ограниченным, синтетические данные могут стать ключевым ресурсом для обучения мощных и эффективных моделей ИИ.

Технологии генерации синтетических данных также будут продолжать развиваться, что позволит создавать более качественные, разнообразные и реалистичные синтетические данные. Это позволит преодолеть некоторые из текущих ограничений синтетических данных и использовать их потенциал в полной мере.

В будущем мы можем ожидать, что модели ИИ будут обучаться на комбинации синтетических и реальных данных, чтобы использовать преимущества обоих типов данных. Это позволит создавать более мощные, точные и надежные модели ИИ, способные решать широкий спектр задач.

Ссылка на источник: (текстовая ссылка)