Основы математико-статистического анализа региональных
данных
|
|
Общая оценка доступной информации и ее особенностей
Исходная информация состоит из двух типов данных, статистического
и экспертного. К статистическому типу данных относятся
статистические данные об экономических, социально-демографических и целом
ряде других характеристик регионов РФ. Эти данные содержат как измеряемые
непосредственно признаки, так и расчетные, например, отношение объема
производства в некотором конкретном году к объему предыдущего года или среднее
значение за несколько лет. К экспертному типу данных относятся
результаты экспертной оценки наличия или отсутствия разного вида нарушений в
базовых законодательных актах, принятых и действующих в регионах.
Для математико-статистического анализа связей между двумя массивами
данных очень важным является качество исходной информации и то, как соотносится
количество изучаемых связей с размерами матрицы статистических данных "объект-признак".
Наша исследовательская ситуации относится к чрезвычайно сложным для оценки "достоверности-недостоверности"
получаемых в конечном итоге результатов. Действительно, доступные анализу статистические
данные далеко не всегда "прозрачны", поскольку неизвестны методики их сбора
и идентичность условий их сбора в разных регионах. Далее, по ряду субъектов
РФ отдельная информация отсутствует. Например, практически для всех автономных
округов, для Еврейской автономной области и для нескольких республик (Ингушетия,
Северная Осетия (Алания), Кабардино-Балкарская и Карачаево-Черкесская республики)
отсутствуют данные об инвестициях за изучаемый период времени (1992-1995 г).
Наконец, 30 видов нарушений, по которым эксперты оценивают регионы, взаимосвязаны,
одни нарушения как бы влекут за собой другие или же в определенной степени исключают
друг друга. То же самое можно сказать и о включенных в анализ статистических
данных: более 60 признаков образуют сложный конгломерат связей между собой,
структуру которых принципиально нельзя восстановить статистическими методами.
Дело в том, что количество неизвестных корреляций (около 2-х тысяч!) намного
превышает размер нашей выборки (число субъектов), а использовать временные ряды
наблюдений можно лишь в условиях более или менее стабильного периода развития
страны. К этому еще добавляется колоссальная неоднородность регионов по истории
и культурным традициям, по ресурсно-географическим особенностям и по экономико-промышленному
состоянию.
Все это в целом предопределяет необходимость постоянного взаимодействия между
профессионалами ряда направлений: юристами, политологами, географами, прикладными
статистиками, владеющими всем арсеналом методов математической статистики, и
"региональщиками" широкого профиля. А это обуславливает необходимость разработки
коллективной стратегии исследования и нестандартных подходов к поиску решений
и методов оценки качества статистических результатов.
Стратегия математико-статистического анализа
Наш подход вкратце можно представить следующей цепочкой этапов.
- Исследуется матрица экспертных оценок, состоящая из нулей и единиц (0 –
нет нарушения данного вида в данном регионе, 1 – есть нарушение), имеющая
30 столбцов (виды нарушений) и 87 строк (отсутствуют данные по Чеченской республике
и Владимирской области, в которой не принят устав), с 2-х точек зрения. Во-первых,
изучается возможность классификации объектов по "похожести" строк при разных
способах определения степени "похожести". Во-вторых, делается попытка
ввести интегрированные рейтинги того, в какой степени является "нарушителем"
Конституции РФ тот или иной ее субъект. При этом учитывается разбиение нарушений
на 4 типа, данное экспертами, и некий балл* "грубости"
конкретного вида нарушений, определяемый экспертно для каждого вида нарушений
(30 таких баллов). Результаты этого этапа имеют две формы: (1) несколько классификаций
субъектов РФ на 3-4 группы по разным критериям “близости”, (2) несколько упорядочиваний
субъектов РФ по разным “рейтингам”. Одновременно проводится тщательный предметный
анализ интерпретируемости всех классификаций и всех рейтингов с отбором
наиболее подходящих для дальнейшего изучения.
- Из огромного конгломерата статистических данных за 1990-1996 годы отбираются,
с одной стороны, те, что могли бы “объяснить” особенности в “конституциональном”
поведении регионов, а с другой стороны, те, что были бы достаточно полными
и надежными с точки зрения качества методик их сбора в соответствующие годы.
Сама эта работа по подготовке статистического материала требует большого анализа,
особенно по сопоставлению “связанной” информации, по выявлению ее смыслового
содержания. Дополнительно ведется работа по построению интегрированных показателей,
например, уровня экономического развития региона или степени “перекосов” в
распределении разных отраслей промышленности и сельского хозяйства.
- После отработки первых 2-х этапов начинается сложная работа по поиску индикаций
связей (“намеков на связь”) между классификациями и рейтингами, с одной стороны,
и статистическими показателями, с другой. При этом следует иметь в виду, что
никаких “нормальных распределений” в таких данных нет, что линейные
связи между разными характеристиками, как правило, отсутствуют, что линейные
регрессионные модели содержательно необоснованны, а их результаты крайне неустойчивы.
В силу этих обстоятельств приходится крайне осторожно использовать методы
традиционной статистики и по возможности подбирать робастные процедуры
статистического анализа, основанные на непараметрических оценках связей между
исследуемыми величинами. Дополнительной головной болью является вопрос о доверительных
вероятностях. Например, коэффициенты корреляции признака А с признаками В
и С наследуют одну и ту же информацию, содержащуюся в данных о признаке А.
Тем самым эти две статистические характеристики имеют определенную связь между
собой и, строго говоря, их нельзя рассматривать отдельно друг от друга, оценивая
вероятность их отличия от нуля или какие-либо другие их свойства. На этом
этапе производится оценка ресурсов математико-статистического анализа данных
с учетом имеющегося программного обеспечения, времени и соответствия отбираемых
процедур задачам исследования и имеющимся данным.
- На 4-м этапе ведется многосторонняя "рутинная" работа, насчитываются мегобайты
промежуточных данных, происходит "разглядывание" сотен графиков, просматриваются
десятки таблиц. Эта многопрофильная работа всех специалистов, задействованных
в проекте, нацелена на отбор только тех результатов, которые имеют вполне
содержательную интерпретацию и следуют в той или иной форме из нескольких
“независимых” методов анализа.
- Последний этап – подведение итогов и отчет о проведенном исследовании.
Но это не просто редакционная верстка сделанного, а весьма сложная работа
по логической стыковке всех промежуточных гипотез, всех частных выводов, всех
звеньев работы. В результаты мы хотели бы иметь некую метамодель, некую
общую конструкцию, состоящую из вербальных описаний, из логических схем статистического
влияния измеряемых параметров состояния субъектов РФ на принятие
ими законов, входящих в противоречие с законами РФ, из ряда чисто теоретических
моделей, описывающих те или иные частные отношения между изучаемыми
явлениями. И, конечно же, “под метамодель” вырабатывается общая концепция
существования статистических закономерностей вклада экономического,
социально-демографического и общественно-политического факторов на политические
и институциональные процессы в регионах.
* Смысловое содержание 5-тибалльных оценок можно понять из
следующего представления о самом "серьезном" балле: 5 – максимальная грубость
нарушения с учетом возможностей реализовать соответствующие региональные нормы,
потенциальной конфликтности с общефедеральными нормами, степени "разрешенности"
тех или иных отдельных положений Федеральному законодательству и т.п. особенностей.
вернуться