18+
Выходит с 1995 года
7 января 2025
Эмбеддинг как метод исследования в юридической психологии

Введение

Цифровая обработка данных позволяет открывать новые связи, которые обычные методы не в состоянии уловить. Слова «интеллектуальный анализ данных» (data mining), «большие данные» (big data), «нейронные сети» уже не принадлежат только математикам и программистам, а постепенно входят в психологический дискурс. Основанные на таких понятиях методы становятся частью психологических исследований в России и за рубежом. Это объективно назревшая ситуация, обусловленная накоплением больших объемов психологической информации и несовершенством традиционных методов исследования (тестирование, экспертная оценка и др.).

Следует обратить внимание на некорректное применение психологами психодиагностических методов, неактуальные стимулы в методиках. Данный тезис также подтверждается рядом ученых. Например, А.С. Эльзессер, Т.В. Капустина пишут: «Объективные причины широкого распространения ненадежных методик: использование устаревших методик; доступность методик; использование методик специалистами непсихологических направлений; механическое использование интерпретатора методики специалистами-психологами — все это снижает диагностические возможности психологических методик» [4].

Перечисленное подтверждает необходимость использования достижений цифровой реальности для развития методов психодиагностики. В силу этого обратимся к методам, основанным на искусственном интеллекте. Согласно приказу Министерства экономического развития Российской Федерации от 29 июня 2021 г. №392 «Об утверждении критериев определения принадлежности проектов к проектам в сфере искусственного интеллекта», к технологиям искусственного интеллекта относятся технологии, основанные на использовании искусственного интеллекта, включая: а) компьютерное зрение; б) обработку естественного языка; в) распознавание и синтез речи; г) интеллектуальную поддержку принятия решений; д) перспективные методы искусственного интеллекта.

Одним из распространенных методов зачаточного искусственного интеллекта является искусственная нейронная сеть (ИНС). Это метод в искусственном интеллекте, математическая модель, алгоритм, а также программное воплощение, построенные по принципу организации и функционирования биологических нейронных сетей. ИНС способна к обучению и самоорганизации. Примеры использования ИНС довольно широки: от обучения вождению автомобилей до применения в голосовых помощниках. Описать более подробную систему построения и функционирование рассматриваемого математического алгоритма не позволяют рамки настоящей статьи, однако следует учесть, что данный метод обладает большой перспективой, а свойства ИНС при распознавании связей могут использоваться в психодиагностике [3].

Итак, как указывалось ранее, к технологиям искусственного интеллекта относится обработка естественного языка. Ее основным инструментом является так называемый эмбеддинг — метод, основанный на ИНС, результатом работы которого является цифровизация смысла некоего сообщения. Эмбеддинг — это представление слова в виде вектора, оцифровывание его смысла, который можно представить графически.

Единицей смысла в конкретном предложении выступает слово в составе синтаксемы. Смысл всего высказывания передается с помощью сложных конструкций, образуемых отдельными синтаксемами. Смысл текста, с точки зрения описываемого подхода, восстанавливается путем выделения в нем отдельных синтаксем, установления их значений и определения ролей для таких предикатов с помощью векторных представлений слов (эмбеддингов) [1].

В русскоязычной литературе эмбеддингами обычно называют числовые векторы, которые получены из слов или других языковых средств. Числовым вектором размерности k называют список из чисел k, в котором порядок чисел строго определен. На пример, трехмерным вектором можно считать (2.3, 1.0, 7.35), а (1, 0, 0, 2, 0.1, 0, 0, 7.9) — восьмимерным числовым вектором.

Эмбеддинг — метод обработки естественного языка, в котором слова представляются в виде числовых векторов. Он представляет собой матрицу n на m чисел. Чисел в этой матрице может быть от нескольких сотен до нескольких тысяч, все зависит от модели для эмбеддинга.

Ранее анализ слова компьютером был невозможен без его распознавания в буквенном выражении, что предполагало подсчет знаков, пробелов и математический анализ этих данных. Однако в таком случае опускается смысл полученных данных, он теряется при их обработке. Например, смысл слов «петух», «курица», «цыпленок» человеку понятен и легко им объединяется в смысловую группу. Однако начертание букв этих слов различно, например, омонимы создают определенную проблему для распознавания машиной (сушка как процесс и как кондитерское изделие). Данная проблема не решается простым кодированием букв, слов или словосочетаний в цифры, машина будет интерпретировать их одинаково.

Визуально объяснить разницу и продемонстрировать эмбеддинг возможно следующим образом. Если учесть, что эмбеддинг (от англ. embedding) — вложение, то возможно продемонстрировать данное вложение, то есть оцифрованный смысл слова. Например, слово «печь» обладает следующим вектором (рис. 1).

Рис. 1. Вектор слова «печь» в трехсотмерном пространстве
Рис. 1. Вектор слова «печь» в трехсотмерном пространстве

В результате программного преобразования возможно спроецировать данные векторы на двумерную сетку координат (рис. 2).

Рис. 2. Графическое представление эмбеддинга слова «печь»
Рис. 2. Графическое представление эмбеддинга слова «печь»

У слов с одинаковым написанием могут быть разные смыслы. На рисунке 2 изображен пример проецирования смысла слова «печь» в разных контекстах: а) «Я буду печь пирожки»; б) «Я буду топить печь пирожками». Координаты слова «печь» находятся на противоположных полюсах. Другие слова, например, местоимение «я» и глагол «буду», примерно в тех же областях, хотя последние не совпадают, поскольку из-за контекста также могут менять часть смысла. Слова «пирожки» и «пирожками» имеют разные, но относительно схожие смыслы, поэтому на координатной сетке они располагаются недалеко друг от друга.

Результаты исследования

Мы провели пилотажное исследование с целью проверки возможностей эмбеддинга для применения в пенитенциарной психологии. Основная гипотеза была представлена в виде тезиса о целесообразности использования эмбеддинга в качестве метода в психологических исследованиях, который должен отвечать требованиям методов исследования психических явлений, то есть быть воспроизводимым, алгоритмичным и адекватным предмету науки психологии, а также раскрывать особенности исследуемого психологического процесса.

В качестве образцов текста взяты личные сообщения на сайте https://pikabu.ru. Сайт посещают 534 тыс. чел. в день. Сайт предоставляет возможность в том числе описывать различные ситуации из жизни и делить их по разной тематике. Для анализа выбраны следующие разделы сайта: «Истории из жизни» (33 352 поста, 71 752 подписчика); «Офисные будни» (4 611 постов, 15 745 подписчиков); «Лига разбитых сердец» (3 116 постов, 12 590 подписчиков). 10 самых популярных постов из этих разделов переведены в текстовый файл и программно проанализированы. Далее результаты были перенесены на сетки координат, представленные на рисунках 3, 4 и 5.

Рис. 3. Эмбеддинг постов из группы «Истории из жизни»
Рис. 3. Эмбеддинг постов из группы «Истории из жизни»

Рис. 4. Эмбеддинг постов из группы «Офисные будни»
Рис. 4. Эмбеддинг постов из группы «Офисные будни»

Рис. 5. Эмбеддинг постов из группы «Лига разбитых сердец»
Рис. 5. Эмбеддинг постов из группы «Лига разбитых сердец»

Анализируя представленные рисунки можно заключить, что истории из жизни, которыми люди делились на сайте, по смыслу, то есть графическому представлению эмбеддинга, отличаются от историй, рассказанных в разделах «Офисные будни» и «Лига разбитых сердец». Можно также отметить, что переживания, которыми люди делились в категории «Офисные будни», схожи с переживаниями из категории «Лига разбитых сердец». Следовательно, работа в офисе, по мнению написавших истории людей, больше связанна с межличностными половыми переживаниями, чем с повседневной жизнью. Кроме того, описание так называемых офисных будней скуднее по использованию слов, чем истории в двух других группах.

Выводы

По результатам проведенного пилотажного исследования можно заключить следующее: 1) графическое представление эмбеддинга в качестве метода психодиагностического обследования вполне возможно; 2) оно позволяет наглядно изобразить смысл используемых текстовых сообщений в различных исследуемых группах.

Где находятся точки соприкосновения использования данного метода в юридической психологии?

1) Ситуации, связанные с нежеланием испытуемых участвовать в психодиагностическом обследовании (осужденные исправительных учреждений отрицательной направленности). Можно связать графическое представление эмбеддинга с психологическими характеристиками, на этой основе использовать его в качестве вспомогательного метода, тем более что примеры похожих психологических исследований уже существуют (А.К. Ковалев, Ю.М. Кузнецова, М.Ю. Пенкина). «С помощью разработанного в ФИЦ ИУ РАН инструмента автоматического анализа текста и методов машинного обучения были получены первые результаты в задаче выявления текстовых параметров, специфичных для людей с определенными психологическими особенностями. Инструмент корпусных лингвостатистических исследований, опирающийся на использование реляционно-ситуационного анализа, психолингвистических показателей и словарей, охватывающих лексику эмоциональной и рациональной оценки, позволили получить значения для 177 текстовых признаков эссе, написанных 486 испытуемыми» [2].

2) Ситуации, связанные с изучением социально-психологического климата различных групп. По текстовым сообщениям членов групп, переведенным в графическое представление смыслов, можно судить об основных тенденциях и интересах данной группы, что частично продемонстрировано в пилотажном исследовании, описанном в статье.

Список источников

  1. Ениколопов С.Н., Кузнецова Ю.М., Осипов Г.С. Метод реляционно-ситуационного анализа текста в психологических исследованиях // Психология. Журнал Высшей школы экономики. 2021. Т. 18, №4. С. 748–769.
  2. Ковалев А.К., Кузнецова Ю.М., Пенкина М.Ю. Возможности автоматического анализа текста в задаче определения психологических особенностей автора // Экспериментальная психология. 2020. Т. 13, №1. С. 149–158.
  3. Сорокоумова С.Н., Курдин Д.А. Использование data mining в изучении динамики личностного роста курсантов ведомственного вуза Федеральной службы исполнения наказаний // Человек: преступление и наказание. 2022. Т. 30, №1. С. 86–95.
  4. Эльзессер А. С., Капустина Т. В. Проблема диагностических возможностей психологических методик: современное состояние // Психолог. 2019. №3. DOI: 10.25136/2409 8701.2019.3.30013.

Источник: Марьин М.И., Курдин Д.А. Эмбеддинг как метод исследования в юридической психологии // Векторы психолого-педагогических исследований. 2023. №1(01). С. 118–125.

В статье упомянуты
Комментарии

Комментариев пока нет – Вы можете оставить первый

, чтобы комментировать

Публикации

Все публикации

Хотите получать подборку новых материалов каждую неделю?

Оформите бесплатную подписку на «Психологическую газету»