Исследователи из Северо-Западного университета (Northwestern University) разработали вычислительную модель, которая решает задачи визуального теста (который ещё используют для оценки IQ) лучше, чем средний американец. Результаты работы опубликованы в журнале Psychological Review.
«Модель решает задачи не хуже 75% взрослых американцев, то есть, на уровне выше среднего, — говорит один из авторов исследования Кен Форбус (Ken Forbus). — Проблемы, сложные для людей, сложны и для модели, и это ещё одно доказательство того, что она обладает некоторыми важными для когнитивных способностей человека характеристиками». Каковы же эти характеристики? Исследователи считают, что главная особенность нашего интеллекта — способность находить аналогии. Мы постоянно сравниваем разные сущности между собой: когда выбираем фильм для вечернего просмотра, ищем подходящую модель смартфона или решаем, к кому обратиться за советом. По этому же принципу работает и обучение: люди применяют в одной ситуации навыки, которым научились в другой — при условии, что между ними есть что-то общее.
У людей уровень интеллекта, абстрактное мышление и способность искать аналогии оценивают с помощью визуальных тестов. Один из них называется «Стандартные прогрессивные матрицы Равена». Это классический и проверенный временем тест — его активно используют уже восемьдесят лет. Тест Равена содержит 60 заданий, распределённых по пяти сериям, в каждой из них сложность задач постепенно возрастает. В ходе теста человеку показывают таблицы или «матрицы» — рисунки с фигурами, связанными между собой определённой логической зависимостью. Одной фигуры недостаёт. Участнику теста нужно установить закономерность, связывающую между собой элементы и выбрать недостающий фрагмент из 6-8 предлагаемых вариантов. «Тест Равена — это лучший предиктор того, что психологи называют «подвижным интеллектом», то есть способностью абстрактно мыслить, логически рассуждать, распознавать закономерности, решать проблемы и находить взаимосвязи», — говорит один из авторов исследования, Эндрю Ловетт (Andrew Lovett).
Учёные решили доказать, что способность искать аналогии лежит в основе как решения визуальных задач, так и интеллекта в целом. Для этого они разработали вычислительную модель, способную пройти тест Равена. В её основе лежат система CogSketch и модель структурного отображения (Structure mapping engine, SME). CogSketch — платформа, созданная исследователями в прошлом году. Она способна «понимать» пространственные отношения между объектами двумерных изображений — их можно рисовать самому или импортировать извне. Собственного «зрения» у программы нет, пользователю приходится разделять рисунок на отдельные объекты, и на основе этой информации CogSketch вычисляет положение в пространстве и топологию — то есть, определяет, содержит ли один объект другой, пересекаются ли они и т. д. То есть для того, чтобы модель могла решать задачи теста Равена, таблицы с задачами надо перевести в понятный системе формат с помощью CogSketch. Но одного «понимания» картинки для решения мало: нужно найти сходства и различия между рисунками, а затем сгенерировать ответ на основе этих данных. Этим занимается SME — модель для поиска аналогий и сравнения объектов.
Чтобы работу модели было с чем сравнить, исследователи попросили студентов Северо-Западного университета пройти тест Равена. В эксперименте приняли участие 46 человек в возрасте от 18 до 22 лет. Они решили 36 задач на компьютере — это позволило учёным определить, сколько времени требовалось, чтобы завершить задание и какие варианты рассматривали студенты. Затем научная группа запустила симуляцию на модели, на этот раз компьютеру нужно было решить все 60 заданий теста. Программа справилась с 56 матрицами из 60. Студенты, в среднем, решали 30 из 36 — что было бы примерно равно 54/60, если бы их заставляли бы проходить тест целиком. Таким образом, модель обошла человека, и согласно нормам, принятым в США в 1993 году, показала результат «выше среднего».
«Большинство современных исследований искусственного интеллекта посвящены распознаванию или маркировке того, что содержит изображение, а не его анализу, — говорит Форбус. — Но распознавание имеет смысл только если оно приводит к каким-то заключениям». «Наше исследование позволило сделать ещё один важный шаг к более широкому пониманию визуального мышления», — заключает он.