Введение
Цифровая обработка данных позволяет открывать новые связи, которые обычные методы не в состоянии уловить. Слова «интеллектуальный анализ данных» (data mining), «большие данные» (big data), «нейронные сети» уже не принадлежат только математикам и программистам, а постепенно входят в психологический дискурс. Основанные на таких понятиях методы становятся частью психологических исследований в России и за рубежом. Это объективно назревшая ситуация, обусловленная накоплением больших объемов психологической информации и несовершенством традиционных методов исследования (тестирование, экспертная оценка и др.).
Следует обратить внимание на некорректное применение психологами психодиагностических методов, неактуальные стимулы в методиках. Данный тезис также подтверждается рядом ученых. Например, А.С. Эльзессер, Т.В. Капустина пишут: «Объективные причины широкого распространения ненадежных методик: использование устаревших методик; доступность методик; использование методик специалистами непсихологических направлений; механическое использование интерпретатора методики специалистами-психологами — все это снижает диагностические возможности психологических методик» [4].
Перечисленное подтверждает необходимость использования достижений цифровой реальности для развития методов психодиагностики. В силу этого обратимся к методам, основанным на искусственном интеллекте. Согласно приказу Министерства экономического развития Российской Федерации от 29 июня 2021 г. №392 «Об утверждении критериев определения принадлежности проектов к проектам в сфере искусственного интеллекта», к технологиям искусственного интеллекта относятся технологии, основанные на использовании искусственного интеллекта, включая: а) компьютерное зрение; б) обработку естественного языка; в) распознавание и синтез речи; г) интеллектуальную поддержку принятия решений; д) перспективные методы искусственного интеллекта.
Одним из распространенных методов зачаточного искусственного интеллекта является искусственная нейронная сеть (ИНС). Это метод в искусственном интеллекте, математическая модель, алгоритм, а также программное воплощение, построенные по принципу организации и функционирования биологических нейронных сетей. ИНС способна к обучению и самоорганизации. Примеры использования ИНС довольно широки: от обучения вождению автомобилей до применения в голосовых помощниках. Описать более подробную систему построения и функционирование рассматриваемого математического алгоритма не позволяют рамки настоящей статьи, однако следует учесть, что данный метод обладает большой перспективой, а свойства ИНС при распознавании связей могут использоваться в психодиагностике [3].
Итак, как указывалось ранее, к технологиям искусственного интеллекта относится обработка естественного языка. Ее основным инструментом является так называемый эмбеддинг — метод, основанный на ИНС, результатом работы которого является цифровизация смысла некоего сообщения. Эмбеддинг — это представление слова в виде вектора, оцифровывание его смысла, который можно представить графически.
Единицей смысла в конкретном предложении выступает слово в составе синтаксемы. Смысл всего высказывания передается с помощью сложных конструкций, образуемых отдельными синтаксемами. Смысл текста, с точки зрения описываемого подхода, восстанавливается путем выделения в нем отдельных синтаксем, установления их значений и определения ролей для таких предикатов с помощью векторных представлений слов (эмбеддингов) [1].
В русскоязычной литературе эмбеддингами обычно называют числовые векторы, которые получены из слов или других языковых средств. Числовым вектором размерности k называют список из чисел k, в котором порядок чисел строго определен. На пример, трехмерным вектором можно считать (2.3, 1.0, 7.35), а (1, 0, 0, 2, 0.1, 0, 0, 7.9) — восьмимерным числовым вектором.
Эмбеддинг — метод обработки естественного языка, в котором слова представляются в виде числовых векторов. Он представляет собой матрицу n на m чисел. Чисел в этой матрице может быть от нескольких сотен до нескольких тысяч, все зависит от модели для эмбеддинга.
Ранее анализ слова компьютером был невозможен без его распознавания в буквенном выражении, что предполагало подсчет знаков, пробелов и математический анализ этих данных. Однако в таком случае опускается смысл полученных данных, он теряется при их обработке. Например, смысл слов «петух», «курица», «цыпленок» человеку понятен и легко им объединяется в смысловую группу. Однако начертание букв этих слов различно, например, омонимы создают определенную проблему для распознавания машиной (сушка как процесс и как кондитерское изделие). Данная проблема не решается простым кодированием букв, слов или словосочетаний в цифры, машина будет интерпретировать их одинаково.
Визуально объяснить разницу и продемонстрировать эмбеддинг возможно следующим образом. Если учесть, что эмбеддинг (от англ. embedding) — вложение, то возможно продемонстрировать данное вложение, то есть оцифрованный смысл слова. Например, слово «печь» обладает следующим вектором (рис. 1).
В результате программного преобразования возможно спроецировать данные векторы на двумерную сетку координат (рис. 2).
У слов с одинаковым написанием могут быть разные смыслы. На рисунке 2 изображен пример проецирования смысла слова «печь» в разных контекстах: а) «Я буду печь пирожки»; б) «Я буду топить печь пирожками». Координаты слова «печь» находятся на противоположных полюсах. Другие слова, например, местоимение «я» и глагол «буду», примерно в тех же областях, хотя последние не совпадают, поскольку из-за контекста также могут менять часть смысла. Слова «пирожки» и «пирожками» имеют разные, но относительно схожие смыслы, поэтому на координатной сетке они располагаются недалеко друг от друга.
Результаты исследования
Мы провели пилотажное исследование с целью проверки возможностей эмбеддинга для применения в пенитенциарной психологии. Основная гипотеза была представлена в виде тезиса о целесообразности использования эмбеддинга в качестве метода в психологических исследованиях, который должен отвечать требованиям методов исследования психических явлений, то есть быть воспроизводимым, алгоритмичным и адекватным предмету науки психологии, а также раскрывать особенности исследуемого психологического процесса.
В качестве образцов текста взяты личные сообщения на сайте https://pikabu.ru. Сайт посещают 534 тыс. чел. в день. Сайт предоставляет возможность в том числе описывать различные ситуации из жизни и делить их по разной тематике. Для анализа выбраны следующие разделы сайта: «Истории из жизни» (33 352 поста, 71 752 подписчика); «Офисные будни» (4 611 постов, 15 745 подписчиков); «Лига разбитых сердец» (3 116 постов, 12 590 подписчиков). 10 самых популярных постов из этих разделов переведены в текстовый файл и программно проанализированы. Далее результаты были перенесены на сетки координат, представленные на рисунках 3, 4 и 5.
Анализируя представленные рисунки можно заключить, что истории из жизни, которыми люди делились на сайте, по смыслу, то есть графическому представлению эмбеддинга, отличаются от историй, рассказанных в разделах «Офисные будни» и «Лига разбитых сердец». Можно также отметить, что переживания, которыми люди делились в категории «Офисные будни», схожи с переживаниями из категории «Лига разбитых сердец». Следовательно, работа в офисе, по мнению написавших истории людей, больше связанна с межличностными половыми переживаниями, чем с повседневной жизнью. Кроме того, описание так называемых офисных будней скуднее по использованию слов, чем истории в двух других группах.
Выводы
По результатам проведенного пилотажного исследования можно заключить следующее: 1) графическое представление эмбеддинга в качестве метода психодиагностического обследования вполне возможно; 2) оно позволяет наглядно изобразить смысл используемых текстовых сообщений в различных исследуемых группах.
Где находятся точки соприкосновения использования данного метода в юридической психологии?
1) Ситуации, связанные с нежеланием испытуемых участвовать в психодиагностическом обследовании (осужденные исправительных учреждений отрицательной направленности). Можно связать графическое представление эмбеддинга с психологическими характеристиками, на этой основе использовать его в качестве вспомогательного метода, тем более что примеры похожих психологических исследований уже существуют (А.К. Ковалев, Ю.М. Кузнецова, М.Ю. Пенкина). «С помощью разработанного в ФИЦ ИУ РАН инструмента автоматического анализа текста и методов машинного обучения были получены первые результаты в задаче выявления текстовых параметров, специфичных для людей с определенными психологическими особенностями. Инструмент корпусных лингвостатистических исследований, опирающийся на использование реляционно-ситуационного анализа, психолингвистических показателей и словарей, охватывающих лексику эмоциональной и рациональной оценки, позволили получить значения для 177 текстовых признаков эссе, написанных 486 испытуемыми» [2].
2) Ситуации, связанные с изучением социально-психологического климата различных групп. По текстовым сообщениям членов групп, переведенным в графическое представление смыслов, можно судить об основных тенденциях и интересах данной группы, что частично продемонстрировано в пилотажном исследовании, описанном в статье.
Список источников
- Ениколопов С.Н., Кузнецова Ю.М., Осипов Г.С. Метод реляционно-ситуационного анализа текста в психологических исследованиях // Психология. Журнал Высшей школы экономики. 2021. Т. 18, №4. С. 748–769.
- Ковалев А.К., Кузнецова Ю.М., Пенкина М.Ю. Возможности автоматического анализа текста в задаче определения психологических особенностей автора // Экспериментальная психология. 2020. Т. 13, №1. С. 149–158.
- Сорокоумова С.Н., Курдин Д.А. Использование data mining в изучении динамики личностного роста курсантов ведомственного вуза Федеральной службы исполнения наказаний // Человек: преступление и наказание. 2022. Т. 30, №1. С. 86–95.
- Эльзессер А. С., Капустина Т. В. Проблема диагностических возможностей психологических методик: современное состояние // Психолог. 2019. №3. DOI: 10.25136/2409 8701.2019.3.30013.
Источник: Марьин М.И., Курдин Д.А. Эмбеддинг как метод исследования в юридической психологии // Векторы психолого-педагогических исследований. 2023. №1(01). С. 118–125.
Комментариев пока нет – Вы можете оставить первый
, чтобы комментировать