ОглавлениеНазадВпередНастройки
Добавить цитату

2.2. Контент – анализ как метод анализа продуктов деятельности

Одним из самых распространенных продуктов человеческой деятельности является текст, который, в частности, можно понимать как упорядоченную систему знаков – кем-то, для кого-то, с какой-то целью, по каким-то правилам созданную.

Варианты текстов являются документами, которые в настоящее время понимаются как любая фиксированная информация – печатная, рукописная, записанная с помощью любого технического средства. В науках, изучающих документы, обычно приняты следующие методы их анализа:



Остановимся подробнее на варианте формализованного метода анализа текстов (документов как видов текстов) – контент-анализе.

Исторически этот метод, как и сам термин, возник в практике американских журналистов, где он был сначала применен к исследованию специфических материалов – материалов прессы. Позднее метод был исследован американским социологом Г. Лассуэлом и применен для анализа пропаганды. Лассуэл подчеркнул формализованный характер контент-анализа, определяя его как метод «количественного анализа содержания» с использованием математических средств, применяемый для исследования содержания материалов пропаганды, повторяемости их отдельных частей и т. п.

Назначение метода: конечно, и в данном случае заключается в том, чтобы исследователь был в состоянии осмыслить текст, передаваемый в процессе коммуникации… здесь предлагаются особые технические средства, особые приемы, которые как бы расставляют для исследователя некоторую контрольную сетку, регламентирующую возможные чрезмерные отклонения на тропах интуиции.

Суть метода контент-анализа заключается в выделении в тексте ключевых понятий (или иных смысловых единиц) с последующим подсчетом частоты употребления этих единиц, соотношения различных элементов текста друг с другом, а также с общим объемом информации.

Техника контент-анализа сводится к нескольким последовательным действиям: 1) выделение единиц анализа, 2) отыскание их индикаторов в тексте, 3) статистическая обработка.

1. Выделение единиц анализа: самым заманчивым и простым было бы выделение в качестве единицы контент-анализа определенного термина, слова, выражающего понятие, меру употребления которого в тексте надо установить. Но (!!!) это и будет худший вариант анализа, не столько формализованный, сколько просто формальный. При таком подходе неизбежна потеря значительной доли информации и поэтому возможно не меньшее, а большее искажение содержания документа. Выделенная единица анализа должна быть обязательно (!) смысловой единицей, т. е. необходимо установить, в каких проявлениях текста присутствует определенная смысловая нагрузка. Она не обязательно реализуется в одном слове (термине), она может проявляться в некоторых устойчивых сочетаниях слов, может вообще не присутствовать в явном терминологическом облачении и т. д.

Поэтому в принципе при поиске единицы контент-анализа можно получить два возможных варианта решения проблемы: – считать за единицу анализа символ. В конечном счете, символ выражается либо в отдельном слове, либо в сочетании слов; – смысловой единицей контент-анализа считать какой-либо объект, о котором имеются высказывания в тексте, или какие-то черты, свойства объекта.

При некоторых обстоятельствах этот объект может быть описан и при помощи одного слова, в других ситуациях – при помощи сочетания нескольких слов, т. е. посредством определенных суждений. Выделение единицы анализа поэтому является весьма непростым делом. Чисто технически поиск единицы контент-анализа требует осуществления следующего действия: отыскания в тексте индикатора выбранных единиц.

2. Отыскание его в тексте требует от исследователя необходимости ограничить на этом этапе свою задачу количественным описанием существующего, а не идеального текста… правильно знать границы возможного применения контент-анализа и просто не допускать его абсолютизации, не ожидать от него результатов, которые он не может дать… нужно научиться действовать конвенционально и иметь отвагу руководствоваться своим мнением. После выполнения этой операции исследователь приступает к следующему этапу.

3. Статистическая обработка. Она заключается в подсчете частоты употребления понятия (при условии учета выделенных индикаторов) или в установлении пропорций между различными группами индикаторов. Характер и направление этих подсчетов определяются целями и задачами исследования.

Одна из важных задач контент-анализа – установление идентичности содержания, вкладываемого в один и тот же термин разными авторами. Существуют специальные способы определения точности употребления понятий в тексте, а также «разложения понятий по степеням».

При анализе содержания мы учитываем в тексте признаки определенных категорий, раскрывающих тему (См., например, в кн. Оценка содержательного разнообразия в школьных сочинениях /Сост Б. А. Еремеев – СПб., 1992.).

Все множество признаков – чаще всего лексических единиц – характеризуется их качественно своеобразным составом – словарем – и устойчивостью. Чем больше состав, тем с большей детализацией раскрывается тема и/или подтема. И тем более конкретно выраженно в тексте представление: конкретное есть синтез многих определений.

Чем больше устойчивость отдельных признаков – лексических единиц, тем более определенно раскрывается тема и/или ее составляющие. Это говорит о большей очевидности для автора соответствующих фрагментов действительности и принятых способов их обозначения в данной ситуации порождения речи. И чем больше частотность лексических единиц, тем надежнее высказывание как акт коммуникации.

Содержательное разнообразие текста тем больше, чем длиннее словарь и чем меньше его устойчивость. С точки зрения психологии, содержательное разнообразие свидетельствует о большей сложности факта сознания, воплощенного в тексте.

Для оценки разнообразия нужен показатель, который учитывал бы соотношение единиц содержания в данном их множестве. Это значит, что нужно учитывать и количество различных единиц, и их частотность, и их общую «массу». Для этого подходит оценка энтропии (Н) по К. Шеннону, в битах:



1 Здесь р – частотность, или относительная частота дан



единицы счета по отношению к их сумме:

L – количество различных единиц (длина словаря). Чем больше различных единиц счета – слов и выражений, раскрывающих тему, – тем больше энтропия Н. Чем реже используется каждая единица, тем больше энтропия Н. И наоборот: чем меньше различных единиц счета и чем чаще они повторяются, тем меньше величина энтропии. Таким образом, оценка неопределенности по К. Шеннону действительно характеризует соотношение единиц содержания и тем самым – содержательное разнообразие текста, выражающее предметное разнообразие авторских представлений.

Пример оценки содержательного разнообразия

Возьмем для примера результаты анализа содержания по дедуктивной схеме. Посмотрим, как изменяется разнообразие характеристики человека у учащихся разного возраста, обучающихся в разных классах. Были проанализированы сочинения-миниатюры на тему «Мой друг». В рамках одного из направлений анализа использованы три общие категории, соответствующие трем ступеням отражения на сознательном уровне. Так, при познании деятельной сущности человека сначала осознаются отдельные формы поведения как таковые, или поведенческие акты. Затем они оцениваются по различным основаниям, после чего так или иначе интерпретируются. Сложившийся образ характеризуется единством констатации, оценки и интерпретации. При развертке структуры образа раскрывается движение познания от явления к сущности, от поведения к его механизмам, к причинам и к возможному будущему поведению. На разных ступенях развития и образ человека в целом, и отдельные уровни отражения должны иметь, очевидно, разную конкретность.

Результаты реализации дедуктивной схемы контент-анализа, при которой общая схема наполняется особенным фактическим материалом, на примере сочинений четырех учениц школы-десятилетки приведены в таблицах 1 и 2. В таблице 1 даются абсолютные показатели: в числителе каждой дроби указано количество различных единиц счета, а в знаменателе – их общее количество с учетом повторов. В таблице 2 приведены оценки разнообразия содержания на уровне отдельных категорий и сочинений в целом (в битах). Эти данные свидетельствуют о предметном своеобразии представлений о друге у субъектов разного возраста по трем взятым категориям.


Таблица 1

Результаты контент-анализа четырех сочинений-миниатюр на тему «Мой друг»: абсолютные показатели


С точки зрения абсолютных показателей можно сделать вывод об увеличении от одного сочинения к другому и общего числа единиц содержания, и их количества по каждой из трех учтенных категорий. Видно, что конкретность оценок и интерпретаций растет гораздо быстрее, чем конкретность фиксации различных действий.

По относительному показателю – показателю содержательного разнообразия – можно сделать вывод о росте общего разнообразия и о росте разнообразия в рамках двух категорий: оценки и интерпретации. Разнообразие описания действий – поведения – даже несколько уменьшается.


Таблица 2

Оценка содержательного разнообразия четырех сочинений-миниатюр на тему «Мой друг» по трем категориям анализа и в целом (Н, в битах)


Можно также судить об относительном разнообразии категорий – подтем – в каждом сочинении, то есть судить о структуре содержательного разнообразия (таблица 3). Так, в сочинении четвероклассницы при раскрытии темы «характеристика друга» на поведение приходится около 53 % общего разнообразия, а на интерпретацию – 11 %. Эти пропорции последовательно изменяются, и в сочинении десятиклассницы на поведение приходится уже только 13 %, а на интерпретацию – 40 %. Наиболее устойчива в данном примере часть, которую занимает разнообразие оценки: от 36 % до 49 %.


Таблица 3

Структура содержательного разнообразия (в %)


Таким образом, динамика содержания сочинений позволяет судить о росте конкретности отражения, о росте разнообразия его предметности и о перестройке структуры разнообразия по взятым категориям: о снижении актуальности поведения в сравнении с повышением актуальности интерпретации при относительной устойчивости места, которое занимает оценка.

Алгоритм оценки содержательного разнообразия

1. Определение предметной области, с позиций которой будет рассматриваться содержание. Что в общем и целом нас интересует в данном тексте или в данных текстах?

2. Определение основных категорий анализа:

2.1. Дедуктивно: на основе представлений аналитика об основных компонентах – сторонах – данной предметной области. Априорное – до опыта – выделение тем, подтем, микротем, которые могут (или должны) быть раскрыты в тексте;

2.2. Индуктивно: на основе впечатления от подлежащего анализу текста (текстов). О чем именно в нем говорится? Выделение тем, подтем, микротем, фактически раскрытых в тексте (текстах).

3. Выделение в тексте единиц счета – слов и/или выражений – и распределение их по категориям.

4. Подсчет количества различных единиц L и частоты каждой из них f, где i = 1, 2…. L.

5. Расчет относительной частоты – частотности р^ – для каждой из выделенных единиц содержания как отношения ее частоты f к общей сумме всех единиц Х1, с точностью до одной сотой (0,01):

f 15’tf

(как показывает практика, большая точность здесь не требуется).

6. Оценка разнообразия, или неопределенности, для каждой единицы (по К. Шеннону, в битах):

h, = – Р, log; р» бит.

На практике используется таблица перехода от относительных частот р к оценкам неопределенности li (таблица 4).

7. Подсчет суммарной оценки разнообразия для каждой категории анализа и для текста в целом:

L

Н = I h, бит.

8. Оценка доли общего разнообразия (в %), приходящейся на отдельные категории – темы, подтемы, микротемы… – в рамках текста.


Таблица 4

Значения h= – plog^p, в битах. Выдержки из таблицы 20А (по: 9. С. 244–245)

Пример реализации алгоритма

Возьмем самый простой случай из четырех рассмотренных: сочинение четвероклассницы Б. М.

«У меня есть подружка Света. Мы очень давно познакомились. Ходили в один садик, учимся в одном классе. На улице мы играем в мячик, в прятки, в догонялки. Мы друг друга не оставляем в беде. Света очень хороший друг! У меня есть сестренка. Света помогает мне с ней нянчиться».

1. В сочинении выделяется то, что характеризует друга.

2. Основные категории анализа определяются в данном случае дедуктивно: на основе сформулированных выше соображений о генезисе сознательного образа человека. Это фиксация поведенческих актов, различные оценки и интерпретация.

3. Выделение в тексте единиц содержания – слов и/ или выражений – и распределение их по категориям (таблица 5).

Таблица 5

Распределение единиц счета по категориям при анализе сочинения четвероклассницы Б. М.


4. Подсчет количества различных единиц L и общего их количества f (таблица 6, столбцы 2 и 3).


Таблица 6

Оценка единиц, категорий анализа и текста в целом (сочинение четвероклассницы Б. М.)


5. Расчет относительных частот – частотностей р^, таблица 6, столбец 4.

6. Оценка разнообразия, или неопределенности, отдельных единиц по К. Шеннону, в битах (li).

В таблице 4 строки содержат десятые доли относительных частот р^, столбцы – сотые доли. Для каждого значения частотности р на пересечении соответствующих строки и столбца находим нужное значение неопределенности h. Для р=0,10 п=0,332; для р=0,20 п=0,464 бит. (См. столбец 5 в таблице 6.)

7. Расчет оценки разнообразия для каждой категории и для текста в целом: таблица б, столбцы 5 и 6. Разнообразие категории «поведение» Н^ =1,66 бит, категории «оценка» Нд = 1,13 бит, категории «интерпретация» Н^ = 0,33 бит. Общее тематическое разнообразие сочинения в данном случае Н = 3,12 бит.

8. Оценка вклада категорий в общее содержательное разнообразие текста (в %): таблица 6, столбец 7.

Определяется как отношение категориального разнообразия к общему, умноженное на 100 %. Для поведения это примерно 53 %, для оценки – 36 %, для интерпретации – 11 %.

Заключение

Очевидно, что можно оценивать содержательное разнообразие и в отдельных текстах, и в их фрагментах, и в группах текстов. Нас может интересовать соотношение различных подтем, микротем в одном сочинении; может интересовать сравнение в этом плане различных сочинений. Можно проследить, как изменяются взгляды отдельного ученика по мере обучения. Можно дать сравнительную оценку взглядов в группе учащихся и обобщенную оценку взглядов на уровне совокупного субъекта, например класса.

Возможен разный масштаб измерения. Так, могут учитываться все единицы содержания, как это сделано в приведенном примере. Могут учитываться только самые устойчивые из них. Критерий устойчивости – повторяемость единиц, абсолютная или относительная частота их.

Цели и средства анализа определяют выбор основания и подходящего порога устойчивости. При внимании к текстовой области как к целому за основание – 100 % – может быть взят весь «массив» содержательных единиц. Тогда самые устойчивые из них характеризуются тем, какую часть области перекрывают. При внимании к текстам (фрагментам) как к отдельным представителям области основанием может стать их общее количество – количество «окон» текста, выступающих в роли единиц наблюдения. Здесь устойчивость описывается числом «окон», в которых есть данная единица.

Оценку содержательного разнообразия можно рассматривать как завершающую ступень собственно контент-анализа текста. Следующие шаги описания его должны быть сделаны уже в направлении к синтезу: сначала – на уровне элементов, затем – на уровне целого.

При установке на развивающее обучение к анализу сочинений с использованием объективных процедур можно и нужно привлекать самих учащихся. Педагогический опыт однозначно свидетельствует в пользу этого. Концептуально и методически опосредствованная работа со словом способствует развитию речевого интеллекта, развитию сознания в целом.

С внедрением компьютеров в повседневность появляется возможность для обработки любого текста по заданным алгоритмам с помощью различных программ. ЭВМ освобождает аналитика от огромной рутинной части исследования, оставляя за ним творческую часть: разработку систем актуальных категорий и осмысление результатов.

Литература

1. Айзерман Л. С. Сочинение о сочинениях. – М., 1986. – С. 18.

2. Беккер Л. М. Психические процессы: В 3-х т. – T. I. – Л., 1974.

3. Выготский Л. С. Собрание сочинений: В 6-ти т. – Т. 2. – М., 1982.

4. Дридзе Т. М. Информативно-целевой анализ содержания текстовых источников //Методы сбора информации в социологических исследованиях. – Кн.2. – М., 1990. – С. 85–102.

5. Еремеев Б. А. О роли этнического фактора в интерпретации мимики //Вопросы психологии познания людьми друг друга и общения. – Краснодар, 1978. – С. 144–148.

6. Львов М. Р., Рамзаева Т. Г., Светловская Н. Н. Методика обучения русскому языку в начальных классах. – 2-е изд., перераб. – М., 1987.

По сб: Лекции по методике конкретных социальных исследований/ Под. ред Г М. Андреевой – МГУ 1972.
Бит – единица неопределенности, соответствующая утверждению о том, что произошло одно из двух равновероятных событий. В нашем случае – при двух различных единицах счета, каждая из которых встречается столько же раз, сколько и другая.