Новый подход к обучению больших языковых моделей (LLM) объединяет в себе текстовую и визуальную информацию, призванный создать более умные и гибкие системы искусственного интеллекта. В исследовательской статье, получившей название «MM1: методы, анализ и выводы из мультимодального предварительного обучения LLM», описываются результаты, демонстрирующие, что модель MM1 устанавливает новые стандарты в способности ИИ выполнять различные задачи. Среди таких задач - создание подписей к изображениям, визуальные ответы на вопросы и генерация текста с высокой точностью.
Научные исследования в Apple сосредоточены на объединении различных видов обучающих данных и модельных архитектур с целью обучения ИИ анализировать и генерировать язык на основе как визуальных, так и лингвистических сигналов. Особое внимание уделяется способностям модели MM1 к контекстному обучению, что особенно заметно в ее самой крупной конфигурации, включающей 30 миллиардов параметров. Эта версия модели проявляет впечатляющие способности к многоэтапному рассуждению над несколькими изображениями с использованием «цепочек мыслей» из нескольких шагов, что обеспечивает ИИ способность находить сложные решения на основе ограниченных примеров.
Исследование MM1 отражает стратегию Apple по расширению возможностей искусственного интеллекта в условиях ужесточающейся конкуренции в данной области. Согласно информации от Марка Гурмана из агентства Bloomberg, Apple в настоящее время ведет переговоры с Google о лицензировании генеративных моделей больших языков, таких как Gemini, с целью внедрения новых функций в iPhone в рамках iOS 18.