О ФОРМИРОВАНИИ БАЗЫ ДАННЫХ СИСТЕМЫ ИДЕНТИФИКАЦИИ ОСНОВНЫХ ПРИЗНАКОВ ОБЪЕКТА НАБЛЮДЕНИЯ

Мордань Б. О.

Киевский национальный университет культуры и искусств (Днепропетровский факультет), ООО Фирма «МоКо», Украина

О ФОРМИРОВАНИИ БАЗЫ ДАННЫХ СИСТЕМЫ ИДЕНТИФИКАЦИИ ОСНОВНЫХ ПРИЗНАКОВ ОБЪЕКТА НАБЛЮДЕНИЯ

При решении широкого круга практических задач, связанных с распознаванием образов, проблематично выделение признаков, отражающих состояние или поведение объектов наблюдения. Сразу же необходимо отметить потребность в выделении таких признаков. Причин здесь две: одна заключена в том, что знание состояние или поведения объекта определяет те или иные необходимые действия, как реакцию на это поведение. Другая причина, во многих случаях более существенна, и состоит в том, что выявление такого состояния позволяет или же распознать сам объект или уточнить некую его внутреннюю, скрытую сущность. По невербальным визуальным признакам можно распознать истинные намерения человека, причем невербальные проявления всегда истинны. Поэтому в качестве объекта наблюдения выбрано человеческое лицо и его поведение, что востребовано, например, в сфере криминалистической экспертизы или при решении проблем обеспечения нормального ориентирования в жизненном пространстве людей с ограничениями по зрению.

Одной из главных составляющих систем распознавания является информационная база, в которой знания отображаются вербальными и изобразительными средствами разного уровня: от элементарных единиц до уровня, подобного текстовому. Отображаются они как в статическом представление, так и представлении анимированном, как в 2D-, так и в 3D-виде. На очереди отображение фонетической составляющей (тембр, интонация и т.п.), что необходимо для полноценного озвучивания. В связи с этим формируется коллекция поведенческих состояний в вербальном представлении и в представлении изобразительном. На начальном этапе создаются таблицы-отношения со ссылками на элементы стартового объекта и таблицами с описанием поведенческих состояний. Текст пока представляется в т.н. «телеграфном стиле», в дальнейшем это будет связный текст. Исходя из условий программной «прозрачности», экономии памяти, выигрыша в быстродействии и, кстати, обеспечения кросс-платформенности, при реализации макета системы, базу решено организовать средствами XML, но со всеми необходимыми «закладными» для дальнейшего перехода к рабочему варианту.

Опробованы три способа получения изображения лица: первый – фотографированием оригинала, который должен был при этом изображать на лице то или иное эмоциональное состояние, второй – обработкой любого исходного фотоизображения оригинала средствами компьютерной графики и третий способ – прорисовкой того или иного поведения с исходного изображения оригинала вручную.

Нужно сказать, что первый способ прост технически, но, к сожалению, требует от объекта съемки определенного уровня подготовки, подготовки актерской, что крайне сложно в обычных условиях. Здесь, кроме того, еще и ограничено количество реализуемых вариантов поведения.

Во втором случае даже при достаточном уровне владения компьютерными графическими средствами и даже, казалось бы, качественном, отображении всех поведенческих визуальных признаков не удается получить узнаваемость той или иной эмоции. Выручает использование известного приложения Poser. В этом случае, благодаря наличию технологии создания 3D-копий объекта по фотографиям в фас и профиль, можно получить даже персонифицированные образы.

Наконец, третий способ, когда образ того или иного поведения создается вручную. Сразу необходимо отметить, в этом случае практически нет ограничений на число вариантов отображаемого поведения. Даже при слабом владении приемами рисования, но имея подробное описание изобразительных средств, можно создать рисунок с вполне распознаваемой эмоцией. Это подтвердила практика проведения занятий с художниками и дизайнерами, начиная с первого вузовского курса до курса четвертого. Наблюдается такая интересная особенность: чем младше курс, тем выше степень узнаваемости отображенного поведения. Это, очевидно, можно объяснить снижением креативности, связанного с возрастным и образовательным развитием схоластического мышления.

С успехом опробован и может найти применение опыт реализации подготовительных операций при создании псевдотрехмерных зрительных образов, в том числе с использованием лентикулярного программного обеспечения. Для хранения в базе данных стереоизображений нами опробуется их анаглифическое представление с последующим разделением на правую и левую составляющие, или же, наоборот, объединение таковых при их поступлении с датчиков.

Следующим этапом работы с контентом базы данных является процесс сегментации на зоны изображений рабочего поведенческого фрагмента лица. Зоны взаимозависимы визуально и семантически, правда, несколько отличаются от принятых в FAST П. Экмана. Зон четыре: Зона 1 – рот и подбородок, Зона 2 – левый глаз, Зона 3 – правый глаз и Зона 4 – лоб.

В базе данных поведенческие фрагменты лица исходно компонуются по поведенческому признаку. Со временем, в ходе дальнейшего экспериментирования с макетом, да и целенаправленно, базы данных будут пополняться множеством не только из основной позиции, а и коллекциями ракурсов, планов и различных атрибутивных элементов поведения (рука у лица, морщины лобные и др.).

Таким образом, в базе данных как бы закреплены и сохранены «тонкости поведения как совокупность технических и нарративных (в изобразительном понимании) приемов» отображения внутреннего состояния предполагаемого объекта наблюдения и, собственно, благодаря этому способствуют репрезентации национальных, возрастных, гендерных и прочих его свойств.