yandex rtb 1
ГоловнаЗворотній зв'язок
yande share
Главная->Соціологія->Содержание->4.4. Обработка и анализ социальной информации

Соціологія Городяненко

4.4. Обработка и анализ социальной информации

Описание информации и вычисления обобщающих параметров  В эмпирической социологии накоплен немало статистических процедур, с помощью которых разрозненные данные, содержащиеся в отдельных анкетах или других материалах социологических исследований, адаптируют для обобщения, описания, анализа, научной интерпретации. По результатам обобщений составляют определенные выводы, решая задачи, поставленные в исследовании. В результате этих процедур появляется реальная возможность выяснить тенденции в исследуемых процессах, явлениях, выработать прогнозы и практические рекомендации, открывающие выход социальной информации в социальную практику. Чаще статистические методы анализа социальной информации используют для:  - описания информации и вычисления обобщающих параметров (одномерная статистика);  - измерения связи между отдельными признаками, полученными в ответах на различные вопросы анкеты, если в качестве метода сбора данных применялось опроса, или контент-анализ текстов СМИ, если использовался метод анализа документов (двумерная статистика);  - проведение сложных математических процедур, позволяющих проанализировать одновременно несколько взаимосвязанных признаков (многомерная статистика).  Применение методов математической статистики обеспечивает:  - краткое описание первичной социологической информации, вычисления одномерных распределений , наглядное представление ее в виде таблиц, графиков, диаграмм;  - вычисление связей между признаками изучаемого общественного явления, оценку их с помощью статистических коэффициентов связи, применение корреляционного, регрессионного анализа и т.д.;  - установление латентных (скрытых) факторов, определяющих взаимосвязи внутри группы, признаков изучаемого явления (факторный, латентно-структурный анализ);  - классификацию признаков и объектов, построение типологий (кластерный анализ, дискриминантный анализ, факторный анализ);  - проверку (подтверждение или опровержение) исходных гипотез исследования, формулировка новых проблем;  - выработка кратко- и долгосрочных прогнозов относительно функционирования и развития определенного общественного явления.  Использование методов математической статистики предполагает определенный набор предварительных процедур, к которым относятся: подготовка анкеты, другого первичного материала до обработки, которая может осуществляться вручную или автоматизировано; выбор уровня будущего анализа (описательный или объяснительный); выбор конкретных статистических процедур для обработки информации.  В эмпирическом исследовании социолог изучает некоторое множество объектов, например, коллектив работников предприятия. Каждому элементу множества присущи определенные свойства (признаки), скажем, пол, возраст, удовлетворенность условиями труда. Каждый объект имеет определенное значение по каждому признаку. Так, работник имеет одно из двух возможных значений признака «пол» (мужская или женская), одно из трех возможных значений признака «удовлетворенность условиями труда» (доволен, не совсем доволен, совсем недоволен), определенное значение признака «возраст» (число полных лет от 18 до 80) и др.  Как правило, для упрощения обработки все значения признаков кодируют числами, поэтому данные для обработки составляют прямоугольную таблицу (матрицу) чисел. Каждая строка этой таблицы соответствует одному объекту, а каждый столбик - определенному признаку. На пересечении определенной строки и столбца этой таблицы находится значение определенного признака определенного объекта.  Признаки разделяют на качественные и количественные. Качественные признаки не имеют количественного выражения («пол», «удовлетворенность условиями труда»).Количественные признаки имеют единицы измерения. Например, единицей измерения количественного признака «возраст» является год, «заработная плата» - гривня. Эти признаки еще называют признаками, заданными в метрической шкале.  При кодировании значений качественного признака числами возможны два существенно отличные варианты. В первом значение качественный признак можно упорядочивать, то есть для любой пары значений можно указать, какое из них соответствует сильному выявлению признаки. Например, значение «доволен» соответствует интенсивные-вом выявлению признаки «удовлетворенность условиями труда», чем значение «не совсем доволен». В таком случае целесообразно и числовые коды подбирать так, чтобы сильному выявлению признаки соответствовало большее число. Так, для признака «удовлетворенность условиями труда» можно выбрать следующие числовые коды значений: 3 - «доволен»;2 - «не совсем доволен»; 1 - «совсем недоволен». Такие качественные шкалы еще называют порядковыми шкалами или шкалами рангов. Во втором случае значение качественного признака не поддаются коем содержательном благоустройству. Например, признак «пол» содержит два значения - «мужская» и «женская». Для значений признаков такого типа можно подбирать любые числовые коды. Главное - чтобы разные значение имели различные коды (т.е. нельзя кодировать два разных значения признака одним числом). Такие качественные шкалы еще называют номинальными шкалами. Как правило, для кодирования значений признаков в номинальных шкалах используют целые положительные числа - 1, 2, 3 и т. Д.  Социологи постоянно приходится при составлении программы исследования выбирать (или даже самостоятельно конструировать) шкалы. От того, насколько удачно это будет сделано, во многом зависит результат обработки полученных данных. Кроме того, выбор математического метода анализа данных тесно связан со шкалами соответствующих признаков. Если такой метод не соответствует данным, это очень существенная методическая ошибка, может свести на нет работу по сбору данных и вычисления результатов.  Чтобы первичные данные можно было использовать для содержательного анализа и выводов, они должны быть независимо упорядочены и проработаны. С этой целью применяют специальные статистические методы - группировки, вычисления обобщающих параметров и коэффициентов, корреляционный, кластерный, факторный анализы и др. Независимо от метода анализа, обработки данных начинают с предварительного упорядочения информации, в основном с помощью статистического группирования и построения статистических таблиц.  Структуру совокупности объектов с точки зрения одной выделенной признаки целесообразно изучать по таблице, в которой для каждого из возможных значений признака зафиксировано, сколько раз встречаются в совокупности объекты, имеющие соответствующее значение. Такую таблицу называют таблицей одномерного распределения, однова-мерной таблице, вариационным рядом. Например, для признака «удовлетворенность условиями труда» одномерная таблица может иметь следующий вид:  Таблица 7  Признак: «Удовлетворенность условиями труда»  Количество объектов - 357. Для 348 объектов (что составляет 97,48% от общей совокупности) известное значение признаки «удовлетворенность условиями труда». Для других объектов совокупности (в данном случае их 9) значение этого признака неизвестно (например, информация собрана методом опроса, и некоторые работники предприятия не захотели отвечать на поставленный вопрос). Анализ таблицы показывает, что довольных условиями труда - 45 (12,60% от общей совокупности и 12,93% от количества работников, ответивших на поставленный вопрос). Подавляющее большинство работников полностью или частично не удовлетворена условиями труда.  В одномерной таблицы часто первый или второй столбики отсутствуют (т.е. в таблице отмечают или же значения, или их коды);  Невозможно перечислить все возможные значения признаков, заданных в метрических шкалах. Следовательно, невозможно и непосредственно построить одномерную таблицу. При таких обстоятельствах все возможные значения признака разбивают на интервалы, а затем строят таблицу. Так, для совокупности работников данного предприятия все значения признака «возраст» находятся между возрастом молодого рабочего (допустим, 18 лет) и возрастом старшего рабочего (допустим, 68). Разобьем их на 4 интервала: от 18 до 25 лет, от 26 до 40 лет, от 41 до 59 лет и от 60 до 68 лет. Тогда одномерная таблица, демонстрирует структуру совокупности работников по возрасту, будет выглядеть так:  Таблица 8  показатели вариации признаков. Для количественных признаков - это дисперсия, среднее квадратическое отклонение, коэффициент вариации. Для качественных признаков разработаны специальные индексы качественной вариации. Чем больше значение соответствующего показателя вариации, тем розсияниши вокруг среднего значения реальные значения признака, а следовательно, тем с большей осторожностью нужно оперировать со средним значением при построении содержательных выводов.  Границы вариации также позволяют оценить, насколько однородной по определенному признаку является совокупность. Если совокупность по определенному признаку неоднородна, может возникнуть потребность разделить эту совокупность на несколько однородных по этому признаку частей и анализировать каждую из них отдельно.Предположим, что изучается удовлетворенность условиями труда на данном предприятии. С логических рассуждений или результатов предыдущих исследований известно, что заработная плата работника влияет на его удовлетворенность условиями труда. Пусть коэффициент вариации заработной платы для всей совокупности работников равна 0,7. Тогда необходимо разделить всю совокупность работников на группы, примерно равные по уровню заработной платы (чтобы в каждой группе коэффициент вариации зарплаты был ниже 0,4), и анализировать удовлетворенность условиями труда отдельно в каждой из них.  В этой таблице отсутствует столбец, в котором указанные коды интервалов, а поскольку известный возраст всех работников (есть соответствующие значения для всех объектов), поэтому третий и четвертый столбцы совпадают. Метрическая признак разбита в данной таблице на разные по размеру (неравномерные) интервалы. А нередко целесообразно разбивать весь диапазон значений на интервалы одинаковой длины (равномерные интервалы).  Для облегчения анализа большого количества таблиц и обеспечение возможности сравнения нескольких из них вычисляют обобщающие характеристики рядов распределения. Чаще всего используют характеристику «среднее значение признака». Для количественного признака вычисляют ее среднее арифметическое значение для всех объектов совокупности.Для качественных признаков такой обобщающей характеристикой ряда является «мода» - значение, наиболее часто встречающийся в одновимир-ной таблице.  Коэффициент связи между двумя признаками. Корреляционный и регрессионный анализ  Одним из важных задач анализа является установление и оценка взаимосвязей между отдельными признаками для определенной совокупности объектов. Эту работу начинают с построения корреляционных таблиц (таблиц сопряженности двух признаков, двумерными таблицами). Они позволяют упорядочивать информацию о распределении совокупности объектов по двум признакам. Такие таблицы имеют прямоугольную форму. Количество строк в них равно количеству возможных значений одного признака, а количество столбцов - количеству возможных значений второго признака. В таблице 9 в ячейке на пересечении второй строки и третьего столбца находится число 42 (в центре ячейки) - количество работниц (значение признака «пол» - «женская»), что недовольны условиями труда (значение признака «удовлетворенность условиями труда» - «недоволен »).  Таблица 9  Двумерная таблица (признаки «Пол» и «Удовлетворенность условиями труда»)  Кроме того, двумерная таблица, как правило, содержит еще один дополнительный столбик и еще один дополнительный строка - так называемые маргинальные столбик и строку. В таблице маргиналы пометкой «Всего». Каждая клеточка маргинального колонки содержит сумму чисел соответствующей строки, то есть количество объектов, имеющих соответствующее значение первого признака (независимо от того, какое значение для этих объектов приобретает второй признак), а также процент, который составляет это число относительно общего количества объектов. Так, из маргинального колонки таблицы видно, что на предприятии работает 136 женщин (39,08% общего количества работающих).Маргинальный строка содержит соответствующие суммы столбцов таблицы.  В каждой ячейке таблицы, как правило, записывают процент относительно соответствующего значения в маргинальном столбце (этот процент записывают выше самого числа) и процент относительно соответствующего значения в маргинальном строке (записывают ниже числа). Если снова вернуться в ячейку во второй строке третьего столбца таблицы, увидим, что количество недовольных условиями труда женщин (таких на предприятии 42) составляет 30,88% от общего количества женщин (всего на предприятии 136 женщин) и 77,78% от общего количества недовольных условиями труда (всего условиями труда на предприятии не довольны 54 работники).  Числа в таблице показывают, что среди женщин процент недовольных условиями труда на предприятии значительно выше, чем среди мужчин. Следовательно, есть основания для гипотезиы, что пол работника и его удовлетворенность условиями труда взаимосвязаны.  Умение читать двумерные таблицы приходит с опытом. Нелегко находить закономерности в довольно больших по размеру таблицах. Кроме того, далеко не всегда связь между признаками прослеживается. Поэтому на практике наличие связи между двумя признаками устанавливают с помощью так называемого критерия% 2, основанный на анализе частот, записанных в ячейках таблицы. Это позволяет сделать выводы о том, можно выдвигать и анализировать гипотезу о наличии связи между двумя признаками.  Применяя указанный критерий, необходимо вычислить коэффициент хи-квадрат по формуле (формула зависит от частот в ячейках таблицы и маргинальных частот), а полученное значение сравнить с табличным (критическим). При этом следует иметь в виду определенный уровень значимости (вероятность принятия ошибочного решения) - в социологии, как правило, 0,05 или 0,01. Кроме того, табличное значение зависит от числа степеней свободы, определяют по количеству строк и столбцов таблицы. Следовательно, для заданного уровня значимости и числа степеней свободы необходимо найти в таблице критическое значение и сравнить его с вычисленным. Если вычисленное значение больше критического, то факт существования связи можно считать установленным.  Силу связи можно оценить вычислением и анализом коэффициентов сопряженности (Пирсона, Чупрова, Крамера). Значение этих коэффициентов находятся в интервале от нуля до единицы и имеют следующее содержание: чем ближе значение к единице, тем теснее связь. Если оба признака, между которыми изучают связь, имеют только по два значения (т.е. фиксируют наличие или отсутствие данного признака в объекте), то для таких «чотириклитинкових» таблиц вычисляют коэффициенты ассоциации и контингенции.  Если определенному значению одной величины соответствует совокупность значений второй, то между этими двумя величинами существует корреляционная связь. Он проявляется тогда, когда на исследуемое явление влияет не один, а множество факторов. Например, стаж влияет на производительность труда, но не окончательно определяет ее, потому зависит от уровня образования, возраста, квалификации работника и других факторов. Поскольку явления общественной жизни сложные и многофакторные, связь между признаками в социологии практически всегда корреляционный.  Если каждому значению одного признака соответствует совокупность значений второго признака, близлежащих возле своего среднего значения (т.е. все значения совокупности не отличаются от своего среднего арифметического), то такой корреляционная связь считают сильнее. Количественно силу корреляционной связи оценивают с помощью коэффициентов корреляции.  Для количественных признаков часто используют коэффициент Пирсона (г), который оценивает силу связи по линейной корреляции (т.е. в предположении, что значение одного признака связаны с соответствующими средними второго признака линейной зависимостью). Все значения коэффициента корреляции Пирсона принадлежат интервалу от -1 до 1. Знак коэффициента показывает направление связи: положительное значение свидетельствует о «прямой» связи (рост одного признака обусловливает рост второй), отрицательное значение - о «обратный» н 'связь, а значение «О» - об отсутствии линейной корреляционной связи. Например, связь между заработной платой рабочего и количеству произведенных им деталей - прямой, а между заработной платой и количеством бракованных деталей - обратный. При г = 1 или г = -1 имеем функциональная связь между признаками (т.е. каждому значению одного признака соответствует одно значение второго признака и эти значения связаны линейной зависимостью). Следовательно, чем дальше значение коэффициента Пирсона от нуля (чем больше его абсолютная величина), тем теснее линейный корреляционный связь между признаками. Но если г = 0, то это означает отсутствие только линейной связи, а не отсутствие связи между признаками вообще: связь может существовать, но нелинейный. Для оценки силы нелинейного связи используют корреляционное отношение, приобретает значение между 0 и 1 (0 означает отсутствие связи, 1 - функциональная связь).  Для признаков, заданных в порядковых шкалах, вычисляют ранговые коэффициенты корреляции (Спирмена и Кендела ), которые также приобретают значение между -1 и 1 и интерпретируются так же, как и коэффициент корреляции Пирсона.  Установка корреляции между двумя признаками еще не означает установление причинной связи между ними. Это лишь свидетельство того, что один из признаков частично повлекла другую или оба признака и является следствием некоторых общих для них причинам. 

 

34