Научные исследователи в компании Apple представили инновационную систему искусственного интеллекта под названием ReALM (Reference Resolution as Language Modeling), которая обещает революцию в понимании человеческой речи голосовыми помощниками.
Разработка была анонсирована как способ решения проблемы разрешения ссылок с использованием больших языковых моделей, что значительно повысит способность ИИ интерпретировать описания объектов пользователей на экране и лучше улавливать контекст разговора.
ReALM призвана сделать взаимодействие с устройствами более интуитивным и естественным. Анализируя визуальные элементы на экране, система восстанавливает их структуру и содержание при помощи текстовых представлений.
Этот подход значительно превосходит традиционные методы, включая возможности нейросети OpenAI GPT-4, как выяснили исследователи Apple. Путем настройки языковых моделей ReALM становится способной легко понимать описания элементов экрана от пользователей, что делает ее особенно полезной для управления информационно-развлекательными системами в автомобилях с помощью голосовых команд.
Кроме того, эта технология повысит эффективность голосового интерфейса для людей с ограниченными возможностями, открывая новые горизонты для применения в различных областях жизни.