Машинные терминалы и вычислительные машины должны получать сведения об окружающей среде, и наиболее эффективным средством для этого является визуальное восприятие. Реализация процедур такого восприятия открывает новые громадные возможности для применения ЭВМ. Анализ погоды на основе карт облаков и постановка диагнозов на основе рентгенограмм или анализов крови являются лишь двумя (из многих возможных) примерами задач по обработке больших массивов данных, в которых входная информация поступает в графической форме. Диалог между машиной и человеком будет облегчен, если человек вместо символьного описания сможет в непосредственной форме предоставить машине реальный объект. Конструкторы, например, могли бы таким путем легко обеспечить структурный машинный анализ своих масштабных моделей.
Особенно интересной областью для применения машинного «видения» может стать промышленная автоматизация. В настоящее время на промышленных предприятиях используются манипуляторы с программным управлением. Такие манипуляторы могут повторять точную последовательность действий определенного рода, но так как у них нет датчиков, то они но в состоянии оперативно реагировать на непредвиденные ситуации. При несколько больших затратах и добавлении простых датчиков и мини-ЭВМ эти манипуляторы могут быть превращены в настоящих роботов.
Обладая несколькими визуальными функциями, такие машины могут собирать узлы из деталей, обнаруживать дефекты и предупреждать аварии. Наличие у роботов визуальных функций уменьшит существующую в настоящее время необходимость строго устанавливать детали на каждом пункте технологической линии: вместо этого детали можно будет транспортировать в контейнерах, а робот будет по мере необходимости брать их и устанавливать для дальнейшей обработки (или сборки).
Изучение явления восприятия дает возможность получить более полное представление о механизме обработки информации машиной и человеком. Многие из проблем, с которыми мы столкнулись, являются для изучения умственной деятельности фундаментальными. Как представлять знания? Каким образом имеющиеся знания дают возможность делать выводы на основе данных восприятия? Каким образом существующие знания взаимодействуют с логическими выводами в процессе обучения? Методы, разработанные для автоматизированного восприятия чувственных данных, не могут быть полностью использованы при создании моделей биологических систем ввиду различий физических механизмов в автоматических системах и в живой природе и несовершенства наших знаний о последних. С другой стороны, хотя для построения автоматизированных систем используются и некоторые данные биологии, по тем же самым причинам копировать природу мы не можем.
В историческом плане исследования в области автоматизированных систем визуального восприятия возникли из изучения методов распознавания (классификации) двумерных образов. Однако применение математического аппарата классификации к задачам анализа реальных ситуаций возможно лишь в немногих случаях. Возьмем в качестве примера требование, предъявляемое к такому устройству, как робот: оно должно манипулировать предметами или двигаться по определенной траектории по отношению к ним (а не только их классифицировать). Однако для манипуляции необходим анализ ситуаций в трехмерном пространстве и понимание пространственных отношений между предметами. В таких задачах, как распознавание знаков, представлялось целесообразным запоминать изображения или их характерные особенности, а затем сопоставлять их с другими изображениями или элементами изображений. В реальных же ситуациях объекты входят один в- другой, имеют части, которые взаимосвязанны, но движутся достаточно независимо; эти объекты могут рассматриваться в разных ракурсах и образовывать множество комбинаций. Кроме того, классы объектов часто определяются по своей функции, а не по форме (например, класс стульев или кофейных чашек). Непосредственные методы сравнения по конфигурации оказываются в этом случае неэффективными, за исключением случаев, когда обеспечивается очень жесткое задание параметров.
В электронных системах визуального восприятия в качестве автоматизированного функционального устройства обычно применяется телекамера с цветовыми фильтрами и турельный объектив (или объектив с переменным фокусным расстоянием) для представления объектов крупным планом. Телевизионное изображение записывается в память ЭВМ в виде последовательности значений величин яркости, причем для каждой регистрации кванта цвета требуется от 4 до 8 бит. Автоматизированное визуальное восприятие может рассматриваться как процесс преобразования этого массива чисел в символьное описание.
В последнее время несколько исследовательских лабораторий начали применять методы исследования восприятия к решению практических технических задач. В Стенфордском университете демонстрировались простые автоматизированные операции сборки с использованием устройств, основанных на визуальном и тактильном восприятии. Лаборатории компании «Дженерал моторе» разработали систему для насадки колеса на ось. Японская компания «Хитати» продемонстрировала систему, которая может различать детали из листового металла на движущейся ленте конвейера и определять их ориентацию, что облегчает их последующую обработку. Ввиду двумерной конфигурации этих деталей в этом случае использовались методы сравнения по шаблону. Эти первые результаты показывают, что в недалеком будущем автоматизированные устройства визуального восприятия найдут широкое применение.