МЕТОДЫ СИНТЕТИЧЕСКОГО КАРТОГРАФИРОВАНИЯ ТЕРРИТОРИИ (НА ПРИМЕРЕ ЭКОЛОГО-ИНФОРМАЦИОННОЙ СИСТЕМЫ "VOLGABAS")

Карты бывают разные:

игральные, топографические, медицинские… [Гражданская защита, 1997, № 3, с. 54]

Геоинформатика глазами экологов

(вместо введения)

Однозначного ответа на вопрос что есть карта?, по-видимому, нет: так Дж. Энд — рюс собрал и проанализировал 321 различное определение понятия «карта», используя публикации с 1649 по 1996 гг. Как определяет толковый словарь [277], "Карта (map, chart) – математически определенное, уменьшенное, генерализованное изображение по — верхности Земли, другого небесного тела или космического пространства, показывающее расположенные или спроецированные на них объекты в принятой системе условных зна — ков". Напомним, что генерализация (generalization) – формализованный отбор, сглажива — ние или упрощение характеристик объекта с целью выделения главных его типических черт. Генерализация осуществляется всегда на основе некоторых фильтров и формальных критериев, субъективно принятых автором для решения поставленных им задач.

Более "взвешенный" взгляд на карту содержится в рабочем определении, принятом

10-й ассамблеей Международной картографической ассоциации: знаковое изображение географической реальности, отображающее отдельные ее особенности или характери — стики как результат творческого авторского отбора и предназначенное для использова — ния в тех случаях, когда пространственные отношения имеют первостепенное значение. В этом определении зафиксированы следующие важные моменты:

· знаковость (символьность) картографического изображения;

· отображение географической реальности;

· субъективный творческий характер этого отображения;

· приоритет пространственных отношений.

В то же время, как указывает А. М. Берлянт [337], в этом определении отсутствуют

упоминания о том, что карта:

· построена по особому математическому закону;

· может отображать не только географическую реальность, но и абстракции, мыслен-ные и даже фиктивные объекты;

· способна представлять не только пространственные, но и динамические ситуации,

их изменения во времени.

Дальнейшая абстракция от реальности приводит нас к мысли, что пространствен — ные отношения не обязательно должны иметь географический смысл, а евклидовы коор — динаты x-y являются лишь одними из многих возможных осей математического много — мерного пространства признаков. Живой пример "неправильных" карт – подробно описы — ваемые ниже самоорганизующиеся карты Т. Кохонена, визуализирующие степень близо — сти произвольных объектов.

Тезис о "математической определенности" географических карт, возник из целена — правленного стремления авторов [277, 2651] объединить понятия прикладной картогра — фии и геоинформатики. Поскольку четкого определения геоинформатики нет, будем по-

нимать под ней совокупность компьютерных и телекоммуникационных технологий обра-ботки данных для решения задач анализа геосистем.

В сближении понятий картографии и геоинформатики много подводных камней.

Прежде всего, в очень разном стиле и нацеленности карты и геоинформационной модели. Например, картограф (создавая карту как нематематическую модель действительности) отобразит рельеф изучаемой местности одним из известных способов: изолиниями, то — нальной отмывкой и иногда – цифрами в "командных точках". А в геоинформатике та же карта представляется цифровой, структурно-цифровой, структурно-каркасной, структурно- лингвистической моделями. Оба подхода имеют несколько разный смысл. Картограф, ис — пользуя язык карты, стремится прежде всего визуализировать информацию, чтобы сделать ее читаемой, не задумываясь над некой ее "математической определенностью". Основным же продуктом геоинформационной технологии является генерирование новой информации путем алгоритмически целенаправленного "пережевывания" и "переваривания" имеюще — гося массива данных.

Более 35 лет назад началась разработка геоинформационных систем (ГИС). Быстро

пройдя этапы создания упрощенных картосхем и грубых имитаций бумажных атласов, со — временные программно-аппаратные комплексы последовательно обобщили опыт и эстети — ку традиционного составления карт и научились изготавливать произведения самого высо — кого качества. Электронные карты, полученные с помощью таких продуктов ГИС — индустрии, как Arcview, MapInfo и т. д., стали точнее обычных ручных в геометрическом отношении, более разнообразны по цветовому, штриховому, полутоновому оформлению и яркому дизайну. Одновременно с усвоением традиционных достижений геоинформацион — ное картографирование постепенно вышло на новый уровень. Сегодня картографы- геоинформатики все чаще задумываются о создании панорамных художественных произ — ведений, в корне отличающихся от традиционных карт и атласов. Например, трехмерное цифровое моделирование позволяет строить объемные изображения, а анимации придают картам так необходимый им динамический аспект.

Но с какой целью затрачиваются столь существенные усилия на реализацию функ — ций чисто "офисного" характера, обеспечивающих максимальный сервис визуализации, географическую эстетику и координатную точность? Разве лишь только для того, чтобы воспроизвести топографическую карту с помощью компьютерной системы взамен сущест — вующей традиционной топокарты? Оказать впечатление на неподготовленного зрителя грандиозными эффектами визуализации, напоминающими голливудские фильмы — блокбастеры? Полагаем, что вовсе нет. Более привлекательна, например, перспектива по- строения оценочных и прогнозных пространственных моделей за счет систематизации, оп — ределенной группировки, преобразования больших массивов многомерной информации, чтобы вести контроль геоситуации и решать оптимизационные задачи, иногда вообще не прибегая к визуализации.

Геоинформатика поражает и покоряет немыслимыми массивами данных, которыми

она играючи оперирует, однозначностью и воспроизводимостью результата. Однако гене — рирование новой информации, свойственное ГИС-технологиям, содержательно интересно только тогда, когда кто-то извне, представитель иной сферы знания или же целая другая наука вложили в уста геоинформатики содержательное понимание определенной задачи. В этом смысле геоинформатика тесно смыкается с экоинформатикой.

Картографический метод для изучения пространственного распределения земной

биосферы на видовом и ценотическом уровнях стал использоваться задолго до того, как была сформирована экология как наука и осознана миссия человечества как одного из важнейших условий устойчивого развития планеты. Первые попытки оценить и предста — вить в визуально обозримой форме биоразнообразие Земли предпринимались в XVIII–XIX вв. на схемах ботанико-географического и зоогеографического разделения поверхности планеты по степени своеобразия флоры и фауны (так, А. Гумбольдт еще в 1807 г. одним из

первых выделил естественные флористические подразделения на основе количественных характеристик флоры и с учетом природных особенностей территории).

Постепенно выделилась самостоятельная область науки, которая стала заниматься

пространственным анализом природных систем — ландшафтная экология. Термин «ланд — шафтная экология» был, видимо, впервые употреблен К. Троллем (Troll, 1939, цит. по [2346]) и стал использоваться для обозначения науки, изучающей экологический эффект мозаичности природных систем в широком диапазоне пространственных масштабов. Фак — тически, ландшафтная экология сфокусирована на изучении трех основных характеристик природных комплексов:

· структуры – пространственных связей между отдельными экосистемами или эле — ментамия карт и научились изготавливать произведения самого высо — кого качества. Электронные карты, полученные с помощью таких продуктов ГИС — индустрии, как Arcview, MapInfo и т. д., стали точнее обычных ручных в геометрическом отношении, более разнообразны по цветовому, штриховому, полутоновому оформлению и яркому дизайну. Одновременно с усвоением традиционных достижений геоинформацион — ное картографирование постепенно вышло на новый уровень. Сегодня картографы- геоинформатики все чаще задумываются о создании панорамных художественных произ — ведений, в корне отличающихся от традиционных карт и атласов. Например, трехмерное цифровое моделирование позволяет строить объемные изображения, а анимации придают картам так необходимый им динамический аспект.

Но с какой целью затрачиваются столь существенные усилия на реализацию функ — ций чисто "офисного" характера, обеспечивающих максимальный сервис визуализации, географическую эстетику и координатную точность? Разве лишь только для того, чтобы воспроизвести топографическую карту с помощью компьютерной системы взамен сущест — вующей традиционной топокарты? Оказать впечатление на неподготовленного зрителя грандиозными эффектами визуализации, напоминающими голливудские фильмы — блокбастеры? Полагаем, что вовсе нет. Более привлекательна, например, перспектива по- строения оценочных и прогнозных пространственных моделей за счет систематизации, оп — ределенной группировки, преобразования больших массивов многомерной информации, чтобы вести контроль геоситуации и решать оптимизационные задачи, иногда вообще не прибегая к визуализации.

Геоинформатика поражает и покоряет немыслимыми массивами данных, которыми

она играючи оперирует, однозначностью и воспроизводимостью результата. Однако гене — рирование новой информации, свойственное ГИС-технологиям, содержательно интересно только тогда, когда кто-то извне, представитель иной сферы знания или же целая другая наука вложили в уста геоинформатики содержательное понимание определенной задачи. В этом смысле геоинформатика тесно смыкается с экоинформатикой.

Картографический метод для изучения пространственного распределения земной

биосферы на видовом и ценотическом уровнях стал использоваться задолго до того, как была сформирована экология как наука и осознана миссия человечества как одного из важнейших условий устойчивого развития планеты. Первые попытки оценить и предста — вить в визуально обозримой форме биоразнообразие Земли предпринимались в XVIII–XIX вв. на схемах ботанико-географического и зоогеографического разделения поверхности планеты по степени своеобразия флоры и фауны (так, А. Гумбольдт еще в 1807 г. одним из

первых выделил естественные флористические подразделения на основе количественных характеристик флоры и с учетом природных особенностей территории).

Постепенно выделилась самостоятельная область науки, которая стала заниматься

пространственным анализом природных систем — ландшафтная экология. Термин «ланд — шафтная экология» был, видимо, впервые употреблен К. Троллем (Troll, 1939, цит. по [2346]) и стал использоваться для обозначения науки, изучающей экологический эффект мозаичности природных систем в широком диапазоне пространственных масштабов. Фак — тически, ландшафтная экология сфокусирована на изучении трех основных характеристик природных комплексов:

· структуры – пространственных связей между отдельными экосистемами или эле — ментам-language:UK;mso-fareast-language:UK;mso-bidi-language: AR-SA’>

пологическое районирование территории по комплексу показателей (напр., ландшафтное,

климатическое районирование, деление территории по условиям жизни населения и т. п.).

Картограмма (choropleth map, cartogram, chorogram, chorisogram) — 1. карта, пока-зывающая распределение относительных показателей (плотность, интенсивность какого — либо явления, удельные величины и т. п.) по определенным территориальным единицам, чаще всего – административным; — 2. один из способов картографического изображения, применяемый для показа относительных статистических данных путем заполнения конту — ров территориального деления (обычно, административных единиц) цветовыми заливками (solid) разного тона, штриховками (cross-hatch line pattern) разной плотности в соответст — вии с принятыми интервальными шкалами. Средства автоматизации позволяют строить К. в т. н. непрерывных, или безинтервальных шкалах (choropleth maps without class intervals, continuous-tone cartogram), когда плотность ставится в точное соответствие величине кар — тографируемого показателя″.

Синтетические показатели создаются обычно путем обобщения (в простейшем слу — чае – суммирования) достаточно большого числа исходных показателей, численно распре — деленных по координатной сети анализируемой территории [1189, 1911]. Сколько-нибудь серьезный математический аппарат, необходимый для формирования комплексных оце — ночных карт, в ГИСах стандартной комплектации отсутствует: так пакет Arcview 3.1 рас — полагает лишь простейшими оверлейными операциями по совмещению пространственно — распределенных тематических слоев (одновременное открытие с наложением). Типовых ГИС, предназначенных для целенаправленной ситуационной обработки фактографической и картографической информации об экологическом состоянии природно-хозяйственных территорий, в настоящее время не существует [1005].

Сегодня мы находимся на этапе, когда программное обеспечение ГИС производит — ся уже достаточно широко, но все еще не является предметом потребления для широкого круга пользователей персональных компьютеров. Другие продукты информационных тех — нологий (текстовые редакторы и электронные таблицы, бухгалтерские и торговые систе — мы) стали обыденными предметами потребления. ГИС-индустрия в целом до такого поло — жения вещей не дошла. Она все еще занимается адаптацией приложений к потребностям индивидуальных заказчиков (в первую очередь — традиционных географов). Но эта ситуа — ция уже в корне изменяется, потому что начинают появляться разработки малых и средних производителей ГИС с простым, зачастую тривиальным ГИС-оформлением, которые ре- шают задачи конечных пользователей пространственных данных – экологов, управленцев, пользователей систем учета и анализа, а не специфические задачи географов. При этом возникающие решения занимают пустующие ниши на рынке универсальных ГИС, которые не вписываются в инструментарий и/или доступную массовому пользователю общую стоимость изделия (напомним, что цена традиционной ГИС колеблется от 1,5 до 5 тыс. долларов США).

Безусловно, ряд ортодоксальных экспертов геоинформатики относится к таким "об-легченным" программам крайне настороженно, но если крупные поставщики ГИС не вы — работают своих собственных аналогов подобных пакетов, то в будущем их наверняка ждет вытеснение с рынка. Суть заключается в том, что пользователям нравится простой продукт с интуитивным интерфейсом, который делает именно то, что от него хотят. При этом такое решение часто стоит на порядки дешевле своих "старших братьев" и обладает открытой архитектурой, что позволяет его наращивать и развивать в контексте возникающих в про — цессе эксплуатации новых требований.

Существующий диссонанс между элитарным характером геоинформационных тех-нологий и реальными потребностями специалистов-аналитиков является одним из тормо — зов в развитии общих концепций синтетического картографирования в области практиче — ской экологии и рационального природопользования. До настоящего времени не сущест — вует типовой унифицированной система — рубрикатора базы данных исходных индивиду — альных признаков и результирующих эколого-экономических критериев (критериев “оп-

тимальности”), т. е. комплексных показателей количественного и качественного состояния наземных территорий и акваторий, характеризующих их уязвимость или экологическое благополучие. Не разработан непротиворечивый и математически корректный формализм "свертки" исходного пространства признаков в отображаемые синтетические показатели ("индексы"). В связи с этим, несмотря на существование ряда региональных атласов терри — торий, нет общепринятой методологии оценочного или прогнозного картографирования эколого-экономических комплексов, основанной на системном синтетическом подходе.

1. Формальная постановка задачи визуализации данных

В этом разделе мы приводим обзор тех методов, которые в настоящее время ис — пользуются для визуального представления сразу всей структуры многомерного набора данных [1092]. Для визуализации могут быть использованы 1-, 2- и 3-мерные пространст — ва, но обычно практически ограничиваются отображением с помощью 2-мерных поверх — ностей, поскольку именно в таком виде человек воспринимает геометрические структуры наиболее естественно, а отношения между объектами выглядят наиболее наглядно.

Под визуализацией данных понимается такой способ представления многомерного распределения данных на двумерной плоскости, при котором, по крайней мере, качествен — но отражены основные закономерности, присущие исходному распределению – его кла — стерная структура, топологические особенности, внутренние зависимости между при — знаками, информация о расположении данных в исходном пространстве и т. д. В качестве основных применений методов визуализации можно указать следующие:

· наглядное представление геометрической метафоры данных;

· лаконичное описание внутренних закономерностей, заключенных в наборе данных;

· сжатие информации, заключенной в данных;

· восстановление пробелов в данных;

· решение задач прогноза и построения регрессионных зависимостей между призна-ками.

Один из способов целенаправленного проецирования в пространства малой размер — ности (в зарубежной литературе – projecting pursuit) заключается в следующем: найти та — кое отображение U (способ проецирования) из исходного пространства на двумерную плоскость, которое бы оптимизировало заданный критерий качества Q – некоторый функционал от координат точек данных до и после процедуры проецирования: Q(U, X). Здесь под X понимается исходный набор многомерных данных, а Q зависит от параметров отображения U.

Например, если каждой точке многофакторных данных можно было бы приписать

две координаты (например, с использованием квазилинейной модели), то это позволяет построить в пространстве данных гладкое многообразие, которое обладает свойством обобщать заключенную в данных информацию и служить для лаконичного описания, сжа — тия информации или для восстановления пробелов в данных. Тогда проецирование данных в пространство меньшей размерности заключается в настройке процедуры построения мо — делирующей двумерной поверхности, вложенной в многомерное пространство признаков.

Можно выделить различные варианты решения задачи проецирования.

1.1. Процедура ортогонального проецирования (метод главных компонент)

В этом случае вид отображения U известен заранее и является линейным отображе-нием исходных данных на плоскость.

Допустим, что облако объектов ″похоже″ на выборку из генеральной совокупности,

подчиненной закону нормального распределения (уточнению понятия “похоже” посвяще — на литература по проверке статистических гипотез, например [1246], здесь мы не будем вдаваться в тонкости этой серьезной науки). Попробуем дать описание распределения то — чек данных в пространстве, которое имеют одну точку сгущения (унимодальную плот — ность) в точке среднего арифметического значений всех признаков. Чем ближе к этой точ-

ке, тем выше плотность распределения объектов. Более 60% всех объектов находятся в об — ласти, представляющей собой эллипсоид рассеяния, центрированный в точке сгущения с осями, равными собственным значениям ковариационной матрицы (см. рис. 1).

 

 

Проведем прямую через центр сгущения, ориентированную вдоль наибольшей вы — тянутости (дисперсии) облака данных (см. рис. 1а). Это направление совпадает с направле — нием наибольшей по длине оси эллипсоида рассеяния. Назовем такую прямую первой из главных компонент и отметим, что для нее средний квадрат расстояния до точек данных минимален.

Рис. 1а. Двумерное нормальное

распределение точек.

I, II – главные компоненты,

Э – эллипсоид рассеяния

Рис. 1б. Искажения, возникающие при

проецировании.

d – реальное расстояние,

s – расстояние между проекциями

1) s » d; 2) s << d; 3) s = 0

Первая из главных компонент соответствует самой существенной доле извлеченной из набора данных информации, причем тем более существенной, чем длиннее наибольшая из осей эллипсоида рассеяния по сравнению с остальными. Значения координат вектора, задающего направление первой из главных компонент, являются количественными мерами значимости признаков (чем меньше значение соответствующей координаты, тем менее значим и информативен признак). Уравнение главной компоненты позволяет приближенно восстановить значения всех признаков, если известно значение только одного из них.

Если точность такого моделирования данных оказывается недостаточной, то опре-деляется направление второй из главных компонент. Из векторов, соответствующих каж — дой точке данных, вычтем вектор ортогональной проекции точки на первую главную ком — поненту. Назовем новый полученный набор векторов множеством первых остатков. По — строим в этом множестве первую главную компоненту. Ее направление окажется направ — лением второй главной компоненты для исходного множества. Это будет прямая, прохо — дящая через центр распределения, перпендикулярно к первой из главных компонент, сов — падающая с направлением второй из главных полуосей эллипсоида рассеяния.

На полученные два вектора можно натянуть плоскость первых двух главных компо-нент. Среди всех плоскостей эта плоскость обладает свойством минимума суммы квадра — тов расстояний от нее до точек данных. С помощью нее можно а) построить двухфактор — ную модель данных; б) восстановить значения признаков объекта, если известны значения двух признаков; в) простым образом визуализировать многомерные данные, спроецировав каждую точку данных ортогонально на плоскость первых двух главных компонент.

Итак, наиболее приемлемым способом визуализировать набор точек данных, чье распределение ″похоже″ на выборку из нормальной генеральной совокупности, является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным ″экраном″, расположенным в про — странстве таким образом, чтобы обеспечить ″картинку″ данных с наименьшими искаже- ниями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трех отношениях:

· минимальна сумма квадратов расстояний до точек данных, то есть экран располо-жен максимально близко по отношению к облаку точек.

· минимальна сумма искажений расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.

· минимальна сумма искажений расстояний между всеми точками данных и их

″центром тяжести″, а также сумма искажений углов между векторами, соединяю-щими точки и ″центр тяжести″.

Кроме минимизации расстояния от точек данных до их проекций в качестве опти-мизируемого функционала могут быть использованы и другие проекционные индексы, на-пример, максимизация энтропии конечного двумерного распределения данных [36].

1.2. Многомерное шкалирование

Если считается, что вид отображения U заранее неизвестен, тогда в качестве опти — мизируемого критерия минимизируют функционал, описывающий “меру искажения” структуры данных. Одним из самых популярных является функционал, являющийся ана — логом стресса в многомерном шкалировании и описывающий меру искажения взаимных расстояний между точками в исходном и результирующем пространстве отображения.

Многомерное шкалирование используют в том случае, когда исходная информация

изначально представлена не в виде таблицы типа “объект-признак”, а в виде квадратной таблицы удаленностей объектов друг от друга. На пересечении i-ой строки и j-ого столбца в такой таблице стоит оценка расстояний от i-го до j-го объекта. Таким образом, изначаль — но каждому объекту не сопоставляется никакой координаты в многомерном пространстве и представить такую информацию в виде геометрической метафоры затруднительно.

Задача многомерного шкалирования заключается в том, чтобы сконструировать рас-пределение данных в пространстве двух шкал таким образом, чтобы расстояния между объектами соответствовали заданным в исходной матрице удаленностей. Возникающие координатные оси могут быть интерпретированы как некоторые неявные факторы, значе — ния которых определяют различия объектов между собой. Если попытаться сопоставить каждому объекту пару координат, то в результате мы получим способ визуализации дан — ных.

В литературе [2643] описаны различные алгоритмы многомерного шкалирования, хотя сами вычислительные процедуры этих алгоритмов практически не отличаются. В ча — стности, в метрическом нелинейном методе размерность пространства задается изначально и с помощью градиентных методов оптимизируется функционал качества, называемый стрессом и описывающий меру искажения матрицы удаленностей.

Аналогично традиционному факторному анализу, в многомерном шкалировании

существует неоднозначность выбора координат, связанная с тем, что координатную систе — му в полученном пространстве можно произвольным образом повернуть – расстояния ме — жду объектами при этом не изменяются. Как правило, поворот осуществляют таким обра — зом, чтобы либо полученные координатные оси имели максимально наглядную интерпре — тацию, либо значения определенных признаков оказались максимально скоррелированы.

1.3. Снижение размерности с учетом нелинейности данных

Возникает естественный вопрос – а как обстоит дело с наборами данных, которые не могут считаться выборками из генеральной совокупности с нормальным распределени — ем? Разумеется, почти всегда можно найти такое криволинейное двумерное отображение U, с помощью которого будет возможно добиться еще лучших значений критериев оптимиза — ции Q. Но существует общий рецепт: если линейный метод работает хорошо и решает по — ставленные задачи, то его и следует использовать, даже если нет статистически оправдан- ных посылок для его применения.

Однако, часто ситуация требует описывать данные ″так, как они есть″, без исполь — зования дополнительных предположений о характере их распределения. Тогда задачу про — ецирования данных можно сформулировать как задачу наилучшей аппроксимации много — мерного набора точек данных более или менее гладкими нелинейными поверхностями, вложенными в это пространство. В этом смысле сложное многомерное множество точек данных заменяется более простым и регулярным объектом – многообразием или сеткой, для описания которой требуется меньше информации.

Задача снижения размерности данных может быть описана как с помощью нагляд-ных образов различных криволинейных поверхностей, вложенных в многомерное про — странство, так и с помощью описания такой нейросети, в которой число входов равно раз — мерности пространства, а количество выходов равно размерности моделирующего много — образия. В наши задачи не входит подробное изложение методов нейросетевого анализа данных, который стал в последние десятилетия очень популярен и читатель легко удовле — творит свое любопытство [763, 946, 3005].

Рассмотрим автоассоциативную сеть – нейросеть ″с узким горлом″ (см. рис. 2). В ней число выходов равно числу входов, но сеть содержит внутренний слой с небольшим числом нейронов. Сеть обучается на воспроизведении входов – то есть ответ нейросети считается правильным, когда значения сигналов на каждом выходе совпадает со значением

~

соответствующем ему входе ( xi

= xi ).Если удается обучить такую нейросеть, то она спо-

собна решать задачу сокращения размерности – и тогда сигнал необходимо снимать с ней-

 

ронов ″горла″ сети.

Рис. 2. Архитектура автоассоциативной нейронной сети с ″узким горлом″ Трехслойная автоассоциативная сеть сначала линейно преобразует входные данные

в меньшую размерность промежуточного слоя, а затем снова линейно разворачивает их в выходном слое. Можно показать, что такая сеть на самом деле реализует стандартный ал — горитм анализа главных компонент. Для того чтобы выполнить нелинейное понижение размерности, нужно использовать пятислойную сеть, средний слой которой служит для уменьшения размерности, а соседние с ним слои, отделяющие его от входного и выходно — го слоев, выполняют нелинейные преобразования. Если из пятислойной обученной автоас — социативной сети удалить два последних слоя, то получается сеть для проецирования, с помощью которой генерируется версия входных данных, преобразованных в пространство, размерность которого равна числу нейронов третьего оставшегося слоя.

Итак, в основе методов целенаправленного проецирования и многомерного шкали — рования лежит идея оптимизации некоторого функционала, который зависит от начально — го положения точек в пространстве и конечного расположения точек на двумерной плос — кости. Выбирая различные виды функционалов, можно строить различные проекции дан — ных, на которых будут подчеркнуты те или иные их особенности. В целом такой подход является достаточно прозрачным и ясным, но при его практическом использовании возни- кают определенные трудности.

Во-первых, задача оптимизации нелинейной функции является трудной сама по се — бе. В большинстве методов используются, как правило, градиентные процедуры, требую — щие больших вычислительных затрат, которые растут пропорционально квадрату от числа точек данных.

Во-вторых, оказывается, что выразительная картина многомерного распределения данных, изображенная на двумерной картинке еще не решает всех вопросов, которые мо — жет поставить себе исследователь. Заманчива идея наносить на двумерную карту не только сами точки данных, но и разнообразную информацию, сопутствующую данным: например, отображать так или иначе положение точек в исходном пространстве, плотности различ — ных подмножеств, другие непрерывно распределенные величины, заданные в исходном пространстве признаков. Все это подталкивает к мысли использовать как можно полнее тот ″фон″, на который наносятся данные, а также вид самих точек данных для отображе — ния различной количественной и атрибутивной информации.

Наконец, после того, как данные нанесены на двумерную плоскость, хотелось бы,

чтобы появилась возможность расположить на двумерной плоскости те данные, которые не участвовали в настройке отображения. Это позволило бы, с одной стороны, использо — вать полученную картину для построения различного рода экспертных систем и решать задачи распознавания образов, с другой – использовать ее для восстановления данных с пробелами.

Таким образом, можно подойти к естественному обобщению понятия «карты», как

объекта, который представляет из себя ограниченное двумерное нелинейное многообразие, вложенное в многомерное пространство данных таким образом, чтобы служить моде — лью данных.

Простой пример карты данных – плоскость первых двух главных компонент. Как

мы уже упоминали, среди всех двумерных плоскостей, вложенных в пространство, она служит оптимальным экраном, на котором можно отобразить основные закономерности, присущие данным. В качестве другой, еще более простой (но не оптимальной) карты мож — но использовать любую координатную плоскость любых двух информативных перемен — ных, в том числе, и пространственных, если географические координаты являются приори — тетными для анализа данных.

Обобщением способа представлять данные с помощью метода главных компонент будет случай, когда карта может иметь любую нелинейную форму, не используя в процес — се построения карты никаких гипотез о распределении данных. Детальному описанию процедур создания и интерпретации гибких карт посвящена прекрасная монография [1091].

1.4. Топологические изображения и самоорганизующиеся карты

До сих пор мы представляли карту как ординацию изучаемых объектов и/или их свойств в системе двух ортогональных метрических осей. Другим способом картографиро-вания является формирование в общем случае неметрического топологического изобра-жения в виде гипотетической ″эластичной сети″, с узлами которой соотнесено контину — альное (непрерывное) изменение свойств анализируемых объектов. Узлы (нейроны) такой сети соединены между собой связями и образуют проекционный экран. Обычно использу — ются два варианта соединения узлов – в прямоугольную и гексагональную сетку (см. рис.

3) – отличие состоит в том, что в прямоугольной сетке каждый узел соединен с 4-мя со-седними узлами, а в гексагональной – с 6-ю ближайшими соседями.

 

а) б)

Рис. 3. Два варианта расположения узлов сетки топографического изображения

а) прямоугольная сетка, б) гексагональная сетка

Формирование топографического изображения может быть реализовано с исполь — зованием нейронных сетей особого типа – так называемых самоорганизующиеся структур, обучаемых "без учителя" по аналогии с известными принципами функционирования нерв — ных клеток [371]. В этих сетях на слой нейронов, составляющих проекционный экран, по — дается входной образ, состоящий из векторов исходных данных,, и сигналы возбуждения распространяются по всему слою согласно принципам классических прямопоточных (feedforward) сетей, то есть для каждого нейрона рассчитывается взвешенная сумма его входов, к которой затем применяется передаточная функция нейрона, в результате чего получается его выходное значение. Процесс обучения заключается в подстраивании весов синапсов, которое осуществляется только на основании информации, доступной в нейро — не, то есть его состояния и уже имеющихся весовых коэффициентов.

Т. Кохонен [1348, 3781] предложил модификацию алгоритма соревновательного

обучения Хебба, в результате чего пропорциональный вклад стали получать не только нейроны-победители, но и ближайшие их соседи, расположенные в окрестности R (рис. 4). Вследствие этого положение нейрона в выходном слое стало коррелировать с положением прототипов в многомерном пространстве входов сети, т. е. близким нейронам стали соот — ветствовать близкие значения входов X. "

3) – отличие состоит в том, что в прямоугольной сетке каждый узел соединен с 4-мя со-седними узлами, а в гексагональной – с 6-ю ближайшими соседями.

 

а) б)

Рис. 3. Два варианта расположения узлов сетки топографического изображения

а) прямоугольная сетка, б) гексагональная сетка

Формирование топографического изображения может быть реализовано с исполь — зованием нейронных сетей особого типа – так называемых самоорганизующиеся структур, обучаемых "без учителя" по аналогии с известными принципами функционирования нерв — ных клеток [371]. В этих сетях на слой нейронов, составляющих проекционный экран, по — дается входной образ, состоящий из векторов исходных данных,, и сигналы возбуждения распространяются по всему слою согласно принципам классических прямопоточных (feedforward) сетей, то есть для каждого нейрона рассчитывается взвешенная сумма его входов, к которой затем применяется передаточная функция нейрона, в результате чего получается его выходное значение. Процесс обучения заключается в подстраивании весов синапсов, которое осуществляется только на основании информации, доступной в нейро — не, то есть его состояния и уже имеющихся весовых коэффициентов.

Т. Кохонен [1348, 3781] предложил модификацию алгоритма соревновательного

обучения Хебба, в результате чего пропорциональный вклад стали получать не только нейроны-победители, но и ближайшие их соседи, расположенные в окрестности R (рис. 4). Вследствие этого положение нейрона в выходном слое стало коррелировать с положением прототипов в многомерном пространстве входов сети, т. е. близким нейронам стали соот — ветствовать близкие значения входов X. "

Природные экологические системы в настоящее время испытывают на себе посто — янно возрастающие антропогенные воздействия, вызванные активной хозяйственной дея — тельности человека с одновременным ростом его популяции. Увеличение земельно — эксплуатируемых территорий ведет к разрушению природных структур. В результате по — стоянного развития производства десятки и сотни тысяч химических соединений создают — ся и используются человечеством, многие из которых (в том числе токсичные и радиаци — онные) попадают в биосферу, загрязняя ее. В связи с этим, экологическая оценка состоя-

ния окружающей среды, изучение механизмов функционирования и структурных особен — ностей природных систем, анализ их целостности и устойчивости, прогнозирование дина — мического развития, определение возможной деградации экосистем и степени ухудшения качества жизни человека – все это является в настоящее время важнейшими задачами со — временной экологии.

Окружающая среда человека состоит из четырех неразрывно взаимосвязанных ком-понентов-подсистем:

· собственно природная среда, имеющая свойство самоподдержания и саморегуляции без корректирующего воздействия человека;

· квазиприрода – модификации природной среды, в которых отсутствует внутреннее самоподдержание и которые требуют все больших энергетических затрат извне;

· артеприрода – искусственная среда, созданная человеком и не имеющая аналогов в естественной природе;

· социальная среда.

Как считает Н. Ф. Реймерс [2223], все факторы из рассматриваемых сред тесно свя — заны между собой и составляют объективные и субъективные стороны качества среды жизни, которые должны быть учтены при экологической оценке состояния изучаемой тер — ритории. В связи с этим, число показателей, которые могут быть использованы для оценки экологического состояния, измеряется сотнями. Обработка такого массива данных, его анализ, выявление "значимых" или "несущественных" показателей весьма затруднительны без использования совокупности компьютерных и телекоммуникационных технологий.

В территориальных органах природоохранного мониторинга, учебных заведениях,

отраслевых институтах и специализированных краеведческих организациях в течение ряда

десятилетий накопился богатый фактографический материал по различным аспектам ис — следований в области экономики, естествознания и медицины регионов. В подавляющем большинстве случаев этот материал никак серьезно не обрабатывается и хранится в виде полузабытой "бумажной субстанции". Не исключено, что собранная статистическими ме — тодами (в период обязательной отчетности Госкомстату СССР), эта информация оказыва — ется зашумлена и даже тенденциозна, а ее пространственная привязка нередко оказывается весьма размытой. Тем не менее, при разумном подходе к ее обработке и интерпретации, эти данные становятся не только важным, но и определяющим звеном информационной модели территории. Во всяком случае, вывод о необходимости проведения комплекса до — рогостоящих дистанционных исследований разумно сделать лишь после обобщения всего комплекса уже имеющейся эколого-экономической информации.

Будем понимать под региональной эколого-информационной системой реализован-ную с помощью технических средств динамическую информационную модель территории, отражающую пространственно-временную структуру, состояние и взаимосвязи между от — дельными элементами моделируемой экосистемы. Объектом анализа экологического со — стояния может быть как отдельная административно-территориальная единица (город, об — ласть, край, республика), так и любая выделенная формальным или неформальным путем часть земной поверхности (бассейн реки, природно-климатическая зона и т. д.). Необходи — мыми является два условия:

· наличие географической карты, на которой изучаемая территория отображалась бы

целиком;

· наличие количественных показателей, пригодных для ввода в базу данных и имею-щих пространственно-распределенный характер в рамках этой карты.

Концептуальные "кирпичики" ЭИС и способы их реализации

Чтобы не прибегать к надоевшим абстракциям, рассмотрим конкретную реализа-цию территориальной базы экологических и экономических данных, разрабатываемой на протяжении последних десятилетий в Институте экологии Волжского бассейна РАН [2272,

2281, 1813, 2276]. Описываемая ЭИС явилась одним из первых опытов комплексного ана-

лиза пространственно распределенной информации и объединяет в себе следующую ие-рархию баз, образно интерпретируемую как "экологическая матрешка":

· комплексную базу данных, охватывающую территорию 24 областей и автономных

республик Волжского бассейна (более 90% территории);

· локальные базы по территориям Самарской, Ульяновской, Саратовской и других

областей;

· частные базы данных, описывающие либо отдельные регионы (например, г. Тольят-ти и прилегающую территорию Ставропольского района), либо специализирован — ные ресурсно-тематические блоки (например, динамику гидрологических характе — ристик Куйбышевского водохранилища).

Естественно, что при создании такого ансамбля баз данных ключевое место было

уделено процессам агрегирования информации в ходе ее прохождения от максимально де-тализованных баз нижнего уровня к комплексным базам высшего уровня.

На сегодняшний день одной из самых трудно решаемых проблем при разработке интеллектуальных приложений, подобных ЭИС, является формализация предметной об — ласти в виде N-мерной информационной модели. По определению, любая модель ограни — чена, т. к. отбрасываются незначительные детали и выделяется суть. Именно тут и проявля — ется первая из проблем – оценить, что важно для решения поставленной задачи, а что нет? Выражаясь казенным языком, необходимо разработать рубрикатор (список, тезаурус) тех данных, которые подлежат загрузке в базу. Для решения этой проблемы мы не прибегали к длительным раздумьям и воспользовались приведенной выше щедрой рекомендацией Н. Ф. Реймерса "использовать все, что хоть сколько-нибудь похоже на информацию".

Пространственно распределенная информация ЭИС "REGION-VOLGABAS" охва-тывала следующий рубрикатор природных компонент:

· климат территории Волжского бассейна (особенности распределения температуры

воздуха и количества осадков, а также ветрового режима);

· географо-геологическое описание (орография, дочетвертичный и четвертичный пе-риоды развития региона, основные черты тектоники) и геохимическая обстановка;

· почвы и ландшафты Волжского бассейна, наличие особо охраняемых природных

территорий;

· лесные ресурсы и распределение естественной растительности;

· животный мир Волжского бассейна (видовое распределение и фаунистические ком-плексы наземных позвоночных и птиц);

· население (демографическая ситуация в Волжском бассейне и степень урбанизации территории);

· гидрология и гидрохимическое качество вод р. Волги и ее водохранилищ;

· гидробиоценозы и их компоненты (фитопланктон, зообентос, водяные клещи, ин-фузории, микроскопические водные грибы, рыбные запасы бассейна Волги);

· оценки качества воды и степени эвтрофикации Волжских водохранилищ по видам-биоиндикаторам.

Обширные рубрики накопленных данных детально описывали распределение по

территории техногенной нагрузки и антропогенных воздействий, в том числе:

· загрязнение воздушного и водного бассейна;

· распределение отходов производства и коммунального хозяйства (включая особо опасные вещества для состояния экосистем и здоровья человека);

· радиационная обстановка, места техногенных аварий и природных катастроф;

· транспортная и рекреационная нагрузка;

· сельскохозяйственная нагрузка (включая распределение по территории бассейна минеральных удобрений, распаханности территории, животноводческой и пести — цидной нагрузок).

Состояние здоровья населения, как критерий оценки качества среды, в рамках ЭИС

"REGION-VOLGABAS" включало следующие параметры:

· общая заболеваемость взрослого населения (смертность, естественный прирост на-селения, оценки заболеваемости от "экологически обусловленных" нозологий);

· здоровье матери и ребенка (рождаемость, смертность детей до года, общая заболе-ваемость детей, в том числе, от "экологически обусловленных" нозологий);

· инфекционные и паразитарные болезни, частота злокачественных новообразований;

· общее состояние системы здравоохранения.

Организация данных в ЭИС пространственной ориентации в целом опирается не те

же принципы, что и в любой другой информационной системе, в первую очередь на неко — торую модель данных, в рамках которой представляется вся имеющаяся информация, как пространственная, так и атрибутивная (описательная). Поэтому вторая из проблем – по — нять, какова будет структура (состав полей) таблиц с данными и как эти таблицы будут между собой взаимодействовать? Следует признать, что при разработки схемы базы дан — ных мы также не прибегали к мучительным мозговым атакам, поскольку структурно- логические взаимодействия между информационными атрибутами подобных систем до неприличия просты и не идут ни в какое сравнение, скажем, с тарифными планами не — большой сотовой компании..

Модель базы данных, представленная на рис. 5, состоит из двух типов таблиц: ус-ловно-постоянного назначения (рубрикаторы показателей и списки операционно — территориальных единиц — участков, районов, городов, областей и т. д.) и информационных таблиц (показатели в натуральных значениях, в баллах, комплексные показатели), характе — ризующие каждую операционно-территориальную единицу.

Рис. 4 Модель базы данных ЭИС типа "REGION"

Всего ЭИС "REGION-VOLGABAS" содержала 509 предметных слоев карты, из ко — торых 85 составили обобщенные показатели. Для удобства пользовательского интерфейса таблицы условно-постоянного назначения имели иерархический характер: например, все показатели относились к одному из блоков, тем и подтем.

Развитие визуальной интерпретации многомерных данных и ГИС-технологий свя — зано, в частности, с тем, что человеку с его ограниченным трехмерным пространственным воображением сложно, а в большинстве случаев невозможно, анализировать и давать обобщенные оценки многомерным объектам. Для реализации специфической проблемы моделирования и прогноза пространственной структуры необходимо решение третьей проблемы: выделение в рамках анализируемой картосхемы дискретных операционно — территориальных единиц (ОТЕ) и геокодирование пространственных данных.

Каждая ОТЕ является пространственным объектом, для которого предполагается однородность имеющейся о нем атрибутивной информации с точки зрения изучаемого яв — ления. В традиционной растровой модели данных ГИС каждой ОТЕ соответствует ячейка регулярной или нерегулярной сетки, которые покрывают полностью всю территорию ис — следования; при этом размеры ячеек выбираются, исходя из характера отображаемой ин — формации и особенностей поставленной задачи. Теория и практика геоинформатики пред — полагает также возможность реализации векторной модели данных, когда цифровое пред — ставление данных связано с различными геометрическими объектами (точкой, линией, ду — гой, замкнутым контуром и т. д.). Однако, задавшись необходимой разрешающей способ- ностью растровой сетки и используя векторно-растровое преобразование, обе модели ока — зываются информационно совместимыми.

На основе выбранной ОТЕ происходит калибровка и настройка имеющейся атрибу-тивной информации и приведение ее к единому образцу. В нашем случае на карте терри — тории выбиралась пространственно-координатная сетка регулярного типа с такой степе — нью масштабной детализации, которая удовлетворяет двум конкурирующим условиям: минимальные потери информации и целостность зрительной интерпретации. Для этого на карте проводится (n-1) горизонтальных и (m-1) вертикальных параллельных линий, кото — рые разделяют карту на m´n прямоугольников или квадратов, именуемых в дальнейшем "участками". Участок – это элементарный, далее не дробящийся объект привязки про — странственно-распределенной информации, т. е. постулируется: каждый показатель в лю — бой точке участка имеет одинаковое численное значение.

При построении регулярной сетки, кроме требований удобств визуализации и сте — пени детализации данных, учитывается также, что слишком большое количество участков приводит к лавинообразному увеличению размерностей матриц при дальнейшей про — граммной обработке, что приводит к непроизводительному расходу ресурсов памяти, уве — личению времени счета и т. д. и может не соответствовать мощности имеющегося компью — тера. Поэтому при создании пространственно-координатной сетки территория, например, Волжского бассейна была разбита на 210 участков единичной площадью 6,5 тыс. км2, тер- ритория Самарской области – на 287 участков единичной площадью 193 км2 и т. д.

Поскольку настоящая методика создавалась в первую очередь для административ-но-территориальных единиц, на карте изучаемой территории выделяются районы и города.

Район в общем смысле – связанное подмножество выделенных участков, количест — во которых может быть произвольным (от 1 до m´n). Однако не должно быть ни одного участка территории, не отнесенного ни к одному из районов, как не должно быть участка, отнесенного к нескольким районам одновременно. Выделение района как объекта инфор — мации определяется лишь традицией представления статистической информации (напри — мер, заболеваемость населения, отстрел животных, водоиспользование и т. д.). Для Волж — ского Бассейна районами являются входящие в него области, автономные республики и прочие административные единицы.

Город в общем смысле – специальным образом интерпретируемый участок карто — схемы, по которому имеются самостоятельные значения показателей. Каждый город дол — жен находится на территории какого-либо района. Выделение городов связано с теми же обстоятельствами, что и выделение районов.

Наконец, четвертой проблемой является геокодирование и пространственная уни-фикация данных.

Как уже отмечалось, задача построения модели пространственной структуры экоси — стемы является весьма сложной и требует совместного учета большого числа весьма раз — нородных факторов. Сама эта разнородность имеет как тематическую, так и пространст — венную природу. Пространственная разнородность информации выражается в том, что статистические и описательные данные часто соотносятся с различными пространствен — ными объектами, отличающимся и по своей природе, и по масштабу, что создает дополни- тельные трудности при совместной обработке и анализе информации [2346].

Например, численность популяции какого-либо вида в одних случаях может быть представлена одним числом, отнесенным к искусственной пространственной единице (в частности, административному району), что не позволяет делать достоверных выводов о ее пространственном распределении. В других исходных материалах та же численность мо — жет быть отнесена к выделенным на территории отдельным местообитаниям, в которых вид встречается. Кроме того, информация о природных или народно-хозяйственных объ — ектах, как правило, известна не для всей территории, а только для отдельных ее точек. Так, содержание загрязняющих веществ в почве известно только в местах отбора проб; интен — сивность движения транспорта известна только на самих дорогах, хотя косвенно влияет (за счет передвижения населения) на значительные территории.

Другая проблема — различный масштаб представления информации. Так, при ком — плексном региональном анализе приходится сопоставлять данные различного территори — ального уровня — относящиеся ко всему региону в целом, к отдельным районам, к отдель — ным водосборным бассейнам, к отдельным точечным описаниям. Размерность объектов, которым соответствуют описательные данные, также может различаться – это могут быть площадные, линейные или точечные объекты, или различные ячеистые структуры. В тоже время, многие биосферные и диффузионные явления зависят не только от состояния в данном конкретном месте, но и от значений этого показателя на соседних (в широком смысле) участках территории. Для учета такого влияния необходимо использование гео — статистических методов, как правило, не представленных в стандартных ГИС.

Очевидно, что прежде чем проводить анализ или моделирование описанных выше пространственно распределенных сущностей, вся разнородная информация, как о зависи — мых, так и о независимых переменных должна быть тщательно оцифрована и унифициро — вана по отношению к одним и тем же географическим координатам. Для выполнения этой процедуры был разработан комплекс алгоритмов и программных модулей эвристической, линейной и нелинейной интерполяции атрибутивных данных по пространственным участ — кам (ОТЕ). После их реализации пространственно-распределенные данные становятся ак- тивизированными. Поскольку в рассматриваемой ЭИС была принята единая растровая мо — дель данных, где ОТЕ соответствуют ячейкам регулярной прямоугольной сетки, каждый показатель экосистемы Х (или фактор среды), в унифицированном виде представлял собой переменную, определенную для каждого участка области исследования:

,

причем в представленной матрице активными являются только N значений внутри контура территории, а (n× m — N) остаются неопределенными, т. е. на картограммах не отображают — ся и в математическом моделировании не участвуют.

Для текущей работы с базами данных разработано программное обеспечение, реа-лизующее традиционные в таких случаях функции:

· многоаспектный поиск и формирование в режиме диалога подмножества показате-лей по имеющимся рубрикационным полям;

· графическое отображение на экране дисплея картограммы пространственного рас-пределения каждого показателя базы по участкам территории;

· получение расчетных таблиц оценки структурных и модельных характеристик (на-пример, составляющие техногенных и биоэнергетических потоков);

· получение новых обобщенных показателей путем линейной комбинации подмно-жества других показателей, имеющихся в базе, либо по иным расчетным формулам;

· математическая обработка показателей базы с целью экологического районирова-ния анализируемой территории, выявления участков, подверженных наибольшему антропогенному воздействию, оценки биотического и геохимического состояния отдельных природных комплексов.

Последние пункты представленного перечня свидетельствуют о том, что основная

задача эколого-информационных систем — не только накапливать текущую или ретроспек — тивную информацию, но и формулировать стратегии управления "качеством" окружающей среды. С целью математической обработки данных, хранящихся в ЭИС, кроме общеприня — тых методов многомерного статистического анализа (регрессионный анализ, различные алгоритмы обработки временных рядов, кластерный анализ и т. д.), использовались алго — ритмы построения прогнозирующих моделей методами самоорганизации (эволюционное и нейросетевое моделирование, метод группового учета аргументов, карты Кохонена). В ка — честве надстройки к библиотеке ("коллективу") методов была разработана эвристическая процедура "модельного штурма", реализующая синтез модели-гибрида из частных моде — лей-предикторов. Частичному описанию концепций и компонентов программного обеспе — чения посвящены последующие разделы.

3. Анализ характера распределения показателей и алгоритмы их перевода в нормированные шкалы

Экологические и экономические показатели, составляющие основу информацион-ного обеспечения ЭИС REGION, имеют следующие специфические особенности.

1). До сих пор не выработан строгий и единый перечень количественно измеряемых параметров, однозначно представляющих эмпирическую экологическую систему; и не ус — тановлен исчерпывающий перечень операций, которые необходимо провести, чтобы оце — нить тот или иной определяющий фактор. Поскольку существуют различные формальные подходы к способам измерения продукции биоценозов, экологического разнообразия, идентификации сукцессионных изменений, устойчивости тренда экологической динамики, структурных сдвигов в видовом составе и т. д., то одному и тому же теоретическому поня — тию, как правило, соответствует несколько операциональных величин, отражающих раз- личные точки зрения.

2). Короткие ряды наблюдений и далеко не всегда экспериментальный характер

данных очень затрудняют процесс регистрации показателей и нередко ставят под сомне — ние научную значимость результатов их измерений. В силу колоссальной пространствен — но-временной изменчивости биосферных объектов, нет никакой уверенности в том, что имеющиеся выборки отражают реальные процессы. Очень велика роль субъективного фактора: экологические величины формируются в ходе определенной деятельности биоло — гов и характеризуют каким-то образом эту деятельность.

3). Показатели, загружаемые в таблицы баз данных, представлены в самых разнооб — разных шкалах измерений: номинальных, порядковых и метрических. Показатели, изме — ренные в метрических шкалах, имеют самые разнообразные единицы измерения, масштаб, точки отсчета и интервалы варьирования.

4). Эмпирические ряды измерений подчиняются самым разнообразным законам распределений, весьма далеким от теоретических нормального или равномерного. Графи — ки зависимостей часто имеют вид стохастических флуктуаций, приближающихся к "бело-

му шуму". Угрожающие масштабы принимает проблема идентификации "выбросов",

фильтрации аномальных и восстановления пропущенных значений.

Аналогичные выводы могут быть сделаны и в отношении других разделов базы

данных: медико-статистических показателей, описанию промышленного потенциала и сельскохозяйственной продуктивности территориального комплекса. Поэтому флуктуации субъективного порядка, возникающие по перечисленным причинам в массивах входной информации, могут приводить к огромным отличиям текущих значений измеряемых вели — чин от их действительных значений. В связи с этим, решающее значение для получения адекватных результатов математического моделирования является разработка развитой системы препроцессинга исходных данных.

В статистической обработке данных широко применяется нормировка – то есть ли-нейное преобразование всех значений признаков таким образом, чтобы значения призна-

 

ков попадали в сопоставимые по величине интервалы:

,

где: xij – j-ая координата i-го вектора, А и В – некоторые заранее назначенные числа, ко-торые назовем характерными масштабами. Эти числа могут быть определены, исходя из

статистических характеристик распределения эмпирических выборок (нормирование по статистикам), либо заданы по некоторым априорным соображениям (нормирование по стандартам). В качестве "стандартов" могут выступать фоновые значения показателя, ПДК, наилучшие и наихудшие "благоприятные" значения и прочие оценки [1925, 609,

3055], лексически связанные с проблемой анализа критических или допустимых нагрузок. Понятийно эти оценки легко воспринимаются, однако отсутствуют методы их корректного вычисления, а существующие отдельные попытки экологического нормирования следует считать субъективными.

В многомерном облаке данных существует несколько масштабов нормирования по статистикам, когда вариационный ряд каждого отобранного показателя преобразуется с использованием выборочных статистических характеристик. Во-первых, это геометриче — ский центр многомерного облака точек данных (т. е. среднее значения всех признаков), квадратный корень из общей дисперсии s, называемый среднеквадратичным отклонением и масштаб R, характеризующий максимальный разброс в облаке данных

 

, , .

Нормировка всех признаков на R приводит к тому, что все облако данных заключа-ется в шар единичного радиуса, а соответствующая формула предобработки имеет вид: ,

где – новые и старые значения векторов признаков.

Если в качестве масштаба выбрана s, то соответствующая формула предобработки

(нормировка на “единичную дисперсию”) имеет вид:

. (3.1)

Если выборка может считаться полученной из нормального распределения, то в ша-ре с центром в радиусом s находится около двух третей от числа точек данных.

Поскольку для экологических данных диапазоны значений для разных признаков очень сильно отличаются друг от друга, то разумно для каждого из признаков применять

собственный масштаб, частные статистики j-го показателя sj, Rj и

X j. Эти нормировки не

являются “изотропными”, то есть они сжимают облако данных в некоторых направлениях

сильнее, в некоторых – меньше. Однако, несмотря на некоторое нарушение структуры данных (взаимных расстояний), такой подход считается общепринятым.

Возникает естественный вопрос: какая из нормировочных формул предпочтитель-нее. Например, наиболее популярная линейная нормировка по "минимаксу"

x

 

=

 

~

ij x

x ij — xmin j

— x

(3.2)

max j

min j

оптимальна, когда значения переменной xi плотно и равномерно заполняют интервал, оп- ределенный эмпирическим размахом данных. Но подобный "прямолинейный" подход применим далеко не всегда. Так, если в данных имеются относительно редкие выбросы, намного превышающие типичный разброс, именно эти выбросы определят, согласно фор-

i

 

мулы 3.2, масштаб нормировки. Это приведет к тому, что основная масса значений норми-


i

 

рованной переменной ~x

сосредоточится вблизи нуля: ~x

<< 1.

В связи с этим, надежнее ориентироваться при нормировке не на экстремальные значения, а на типичные, т. е. статистические характеристики данных, такие как среднее и дисперсия и вести расчет по формуле (3.1). Однако в этом случае нормированные величи-ны не принадлежат гарантированно единичному интервалу, более того, максимальный

i

 

разброс значений ~x

заранее не известен. Для входных данных статистических моделей это

 

может быть и не важно, но выходные переменные часто используются в качестве эталонов и очень удобно ограничить диапазон их изменения на интервале от 0 до 1. Естественный выход из этой ситуации — использовать для предобработки нелинейное функциональное преобразование данных. Например, преобразование с помощью сигмоидной функции

x

 

качественно нормирует основную массу данных одновременно гарантируя, что

~i Î[0, 1] .

Другим вопросом, представляющим интерес для обсуждения, является формули — ровка понятий «эквивалентности» и «коэквивалентности» различных формул нормиров — ки. Согласно теореме Б. И. Семкина и В. И. Двойченкова [4], два вектора пронормирован-

x

 

и

 

1

 

ных значений ~

x~ , полученных по различным формулам, эквивалентны, если их

2

 

~ ~

компоненты связаны монотонно возрастающей зависимостью j, т. е.

~

x1 = j ( x2 ). Приме-~

ром такой функции j является линейное преобразование

x1 = a + b× x2 , позволяющее

любые пронормированные значения умножить, разделить или сложить с некоторым по — стоянным числом и при этом предупорядоченность данных нисколько не изменится (меня — ется лишь масштаб шкалы измерения). Например, легко увидеть, что являются эквива — лентными между собой оба вектора пронормированных значений полученных по форму — лам (3.2) и

где

x) j

,

 

— "наилучшие (или наихудшие) для каждого показателя оценочные значения (на-

пример, наиболее благоприятные для целей строительства, сельского хозяйства и др. кли — матические характеристики, величины углов наклона местности и т. д.)" [2652]. Мы не хо — тим оспорить тезис, что вторая "нормировка дает возможность выразить отклонения всей системы показателей от наилучших или наихудших оценочных значений и тем самым пра- вильнее с содержательных позиций их соизмерить между собой". Однако визуально карто — граммы показателя, обработанного по обеим формулам нормировки, будут совершенно идентичны.

Однако вернемся к практическим решениям. Введем такое понятие, как нормиро-ванная шкала (НШ) показателя, которая характеризуется следующими свойствами:

· для всех показателей, преобразованных в НШ, устанавливается единый диапазон области существования, варьирующийся от Bmin до Bmax ;

· распределение вариационного ряда показателя по шкале НШ соответствует прин-ципу максимума энтропии каждой из входных переменных.

В рамках текущей версии системы REGION в качестве НШ была принята порядко-вая шкала, в которой Bmin = 1, а Bmax = Kb, где Kb — размерность шкалы (количество града — ций). Из соображений унификации для большинства исходных показателей, измеренных в метрических шкалах, Kb была принята равной 6. Размерность Kb для показателей, изна — чально измеренных в порядковых или номинальных шкалах, выбиралась каждый раз исхо — дя из специфики нормируемых данных.

Выбор 6-бальной нормировочной шкалы основан на тех же теоретических сообра-жениях, что и традиционные алгоритмы нормировки. Действительно, диапазон варьирова — ния результирующих значений, полученных после преобразования исходных переменных (т. е. размерность Kb), не имеет никакого принципиального значения ни для существа про — блемы, ни для характера последующего использования пронормированных выборок в ходе статистического моделирования. Легко видеть, например, что НШ от 1 до 6 легко может быть преобразована в более популярную нормировочную шкалу 0 ¸ 1 по формуле

bi’ =(bi — Bmin)/(Bmax-Bmin),

где bi’ – значение от 0 до 1.

Поскольку так же легко реализуется и обратный переход, все множество нормиро-вочных шкал можно считать эквивалентными.

Другим поводом для обсуждения качества нормировки является возможная потеря точности при переходе от метрической шкалы к порядковой. Однако, как показала практи — ка, погрешность большинства исходных эколого-экономических данных столь велика, что ошибка измерения практически сопоставима с величиной самого натурального показателя. В связи с этим можно предположить, что переход к оценке большинства анализируемых показателей в 6-бальной шкале не приведет к качественным информационным потерям.

Решающим преимуществом НШ в виде стандартной ординальной шкалы являются удобство визуализации пространственного распределения индивидуальных и комплексных показателей на картосхемах изучаемого региона: человеческий глаз уверенно может раз — личать контрастную раскраску карт, спектр которой не превышает 6-8 цветов.

Покажем, что общий принцип, которым следует руководствоваться на этапе норми — рования и квантования числовых переменных, состоит в максимизации энтропии входных и выходных переменных. Допустим, что в результате перевода всех данных в числовую форму и последующей нормировки все признаки отображаются в единичном кубе. Задача построения математических моделей заключается в том, чтобы найти статистически дос — товерные зависимости между входными и выходными переменными. Единственным ис — точником информации для статистического моделирования являются примеры из обу — чающей выборки. Чем больше бит информации принесет каждый пример — тем лучше ис — пользуются имеющиеся в нашем распоряжении данные.

i

 

Рассмотрим произвольный вектор предобрабатываемых данных: ~x. Среднее коли-

i

 

чество информации, приносимой каждым примером ~x a, равно энтропии распределения

значений этого показателя:

i å j i

 

Рассмотрим произвольный вектор предобрабатываемых данных: ~x. Среднее коли-

i

 

чество информации, приносимой каждым примером ~x a, равно энтропии распределения

значений этого показателя:

i å j 2 j

 

H ( ~x ) = p log (1 / p )

j

i

 

Если эти значения сосредоточены в относительно небольшой области единичного интервала, информационное содержание такой компоненты мало. В пределе нулевой эн — тропии, когда все значения переменной совпадают, эта переменная не несет никакой ин — формации. Напротив, если значения переменной ~x a равномерно распределены в задан-ном интервале, количество информации, вносимой такой переменной, максимально.

В соответствии с изложенным общим принципом, мы должны стремиться к тому, чтобы максимизировать энтропию закодированных данных. В то же время известно, что из всех статистических функций распределения, определенных на конечном интервале, мак — симальной энтропией обладает равномерное распределение. Применительно к случаю све — дения численной шкалы к порядковой (а именно так можно трактовать процесс "квантова — ния" или "баллирования") в ЭИС REGION был принят следующий практический рецепт преобразования переменных. Общий диапазон допустимых значений показателя разбива — ется на n отрезков — по числу классов — с длинами пропорциональными числу примеров

каждого класса в исходной выборке: Dxk

= Pk

P, где Pk — число примеров класса k, а P —

общее число примеров. Центр каждого такого отрезка будет являться численным значени-ем для соответствующего ординального класса (см. рис. 6).

Рис.6. Иллюстрация способа кодирования кардинальных переменных с учетом количества примеров каждой категории.

При таком способе "оцифровки" все выделенные классы будут нести примерно одинаковую информационную нагрузку. Выражаясь точнее, перевод признака, измеренно — го в метрической шкале, в систему порядковых переменных ("баллов") будет сопровож — даться наименьшими потерями информации. Если в ходе анализа установлено, что мы имеем дело с равномерным распределением данных, то естественным способом деления на диапазоны области существования [a, b] анализируемой переменной xq является выделе — ние k одинаковых отрезков. Во всех остальных случаях выделение интервалов осуществ — ляется, исходя из условия равенства площадей фигур, образованных вертикальными секу — щими от граничных значений до кривой функции плотности распределения f(xq).

Другой проблемой ординации исходных показателей является учет характера связи

каждого из них с некоторой целевой функцией обобщенного "экологического состояния".

В ряде случаев вывод о причинно-следственной направленности этой связи более или ме — нее бесспорен. Например, логично предположить, что рост любых показателей заболевае — мости населения или развитие патологических изменений в органах и тканях живых орга — низмов однозначно свидетельствует об ухудшении экологического состояния. Тогда тер — риториям, имеющим самый низкий уровень заболеваемости, может быть присвоен балл 1, а там, где заболеваемость достигает максимальной отметки — балл 6. В большинстве случа — ев показатели, отражающие техногенное загрязнение территории, водоемов и воздушного бассейна, "оцифровываются" по аналогичному принципу. Однако, в общем случае можно выделить три основных варианта функциональной связи показателя с обобщенным крите — рием экологическльный анализ связи вновь включаемого показателя с уже имеющимся комплексом данных.

Сущность формально-аналитических методов нахождения оптимальных диапазонов нормирования показателя заключается в следующем. Пусть нам необходимо преобразо-вать в НШ последовательность объектов i = 1,2,…,m, обладающих признаком xq, который принимает значения на отрезке [a, b]. Предположим, что в ЭЭС уже существует некоторый другой (ранее загруженный) индивидуальный показатель (или обобщенный комплекс из некоторого их подмножества), который мы можем принять в качестве некоторого эталона экологического состояния. Тогда с помощью этого вектора-эталона каждая величина xqi может быть отнесена к одному из n классов измерений D1, D2, …, Dn, l = 1,2,…,n.

 

Прозрачность, м Азот аммонийный, мг/л

 

рН Биомасса фитопланктона, мг/л

Рис 7. Деление по диапазонам некоторых показателей качества поверхностных вод суши (по оси ординат – разряды качества вод по класси- фикации О. П. Оксиюк с соавторами:1 – предельно чистые, 2а – очень чистая, 2б – вполне чистая, 3а – достаточно чистая, 3б – слабо загряз — ненная, 4а – умеренно загрязненная, 4б – сильно загрязненная. 5а – весьма грязная, 5б – предельно грязная)

189

Пусть необходимо разделить диапазон существования признака xq [a, b] на некото — рое заранее заданное количество интервалов k, границы которых заранее не определены. Задача состоит в том, чтобы найти такое разбиение d на градации, которое наилучшим об — разом подчеркивает дискриминирующую сущность исходной априорной классификации измерений D1, D2, …, Dn.

Первый алгоритм основан на максимизации информационной меры дивергенции,

введенной С. Кульбаком [1415], которая имеет смысл средней меры различия двух эмпи — рических распределений. Метод формализован А. А. Генкиным [671] и является основой "Оболочки Медицинских Интеллектуальных систем".

 

Обозначим через pj(xq |Ds) частоту попадания значения показателя xq из подмноже — ства { xq }Ds в j-й диапазон ( j = 1,2,…,k ). Тогда по первому алгоритму для двух классов Ds и Dl в качестве наилучшего разбиения диапазона [a, b] на k отрезков выбирается такое, ко — торое максимизирует значение дивергенции Кульбака:

Граничные значения интервалов легко находятся как полусумма смежных отсорти-рованных значений xqi обучающей выборки, принадлежащих разным диапазонам.

В общем случае n классов максимизируется величина:

.

Получаемое таким образом разбиение вместе с вероятностями появления значений

признака в соответствующих интервалах pj(xq|Ds) называется интервальной структурой

[671].

В. Н. Вапником с соавторами [49] представлен более общий алгоритм нахождения наилучшего разбиения, основанный на минимизации шенноновской энтропии и опреде — ляющий как границы диапазонов, так и оптимальное число градаций k.

Пусть существуют условные вероятности принадлежности x к каждому из n клас-

сов:

P(D1 | xq), P(D2 | xq), …, P(Dn | xq).

Тогда для каждого фиксированного значения признака xqi может быть определена

энтропия как мера неопределенности принадлежности вектора x к тому или иному классу:

Среднее по мере P(xq) значение энтропии есть : H = ò H ( xq )P ( x q )dx q.

При разбиении d анализируемого диапазона [a, b] на k интервалов каждая величина численной шкалы xqi будет принимать одно из к значений порядковой шкалы c(1), c(2), c(k). Тогда средняя энтропия может быть записана в виде

.

Для того, чтобы оценить энтропию H(k), необходимо рассчитать вероятности P(Dl | c(j)) и P(xq = c(j)) по обучающей последовательности, для чего можно воспользоваться байесовскими оценками:

é ù

k n ê ú

H (k ) = åå [m l ( j ) + a](m l + a) ln ê

[m l ( j ) + a](m l + a)(m + ka)

ú , (3.3)

(m + ka )(m + na) ê

é n ù ú

j =1 l =1 l

ê (m l

+ ka)(m + na)êå m l ( j ) + a ú ú

ë ë l =1 û û

где a — константа алгоритма, m — объем обучающей выборки, ml — число элементов l-го класса в выборке, ml (j) — число элементов l-го класса, входящих в j-й диапазон разбиения.

Задача состоит в том, чтобы найти такое разбиение d интервала численной пере — менной xq [a, b] на градации и определить их число k* , которое наилучшим образом под — черкивает дискриминирующую сущность исходной априорной классификации, поскольку максимизируется количество информации, содержащейся в сообщении о принадлежности вектора x к тому или иному классу:

J(k*) = Hапр — H(k*), (3.4)

где

H апр

å

 

n (m

= l

+ a)

é (m

ln ê l

+ a) ù ú

l =1 (m + na)

ë (m + na) û

Представленные алгоритмы реализуются, в той или иной мере, по схеме полного перебора. Например, алгоритм Вапника оформлен как процедура многократного дробле — ния-склейки градаций-претендентов, пока не будет найдено разбиение d и число диапазо — нов k* , доставляющие максимум выражению (3.4). Часто разумно пытаться уменьшить количество градаций k* и после достижения минимума по k функции H(k*), но лишь до тех пор, пока величина J(k*) не уменьшится в (1 — d ) раз, где d – параметр алгоритма.

Обоснованность результатов нахождения оптимальных границ диапазонов кванто-вания данных по описанным алгоритмам зависит от качества априорного деления коорди — нат преобразуемого вектора на классы, которое повышается по мере наполнения информа — ционной системой данными (смысл самоорганизации).

4. Методы классификации и редукции данных

Основной вопрос, которым задается пользователь информационной системы (эко — лог-исследователь или лицо, принимающее решение в области планирования природо — охранных мероприятий), формулируется следующим образом: "Возможно ли построить на имеющемся множестве данных сколько-либо разумную (естественную, полезную) сис- тему отношений?" Поэтому подавляющее большинство разрабатываемых статистических моделей, так или иначе связано с классификацией.

У истоков любой модели всегда лежит замысел человека научить компьютер "отли-чать одно от другого", т. е. по значению прогнозируемого показателя-отклика явно или не — явно оценить некоторую категориальность изучаемого объекта, процесса или явления. Например, хочется:

· определить степень ("класс") техногенного преобразования участков территории;

· узнать, является ли скорость депонирования фосфора большой или маленькой;

· предположить, что в ходе эволюции плотность популяции будет возрастать или

убывать;

· оценить, насколько опасным для здоровья является действие того или иного хими-ческого вещества,

т. е. в конечном итоге что-то расклассифицировать.

Получив результаты моделирования, исследователь чаще всего начинает выполнять диагностику, т. е. сравнивать между собой изучаемые объекты, процессы или явления по выделенным отличительным признакам классов (или "дискриминирующим правилам"). Здесь было бы кстати упомянуть, что само классифицирование является своеобразной "сверткой" исходных информационных таблиц, поскольку число выделяемых классов все — гда меньше, чем уникальных объектов, т. е. в итоге получается по возможности лаконичное, наглядное и полезное представление данных в пространстве существенно меньшей размер — ности. В то же время, математические методы редукции пространства признаков сами яв — ляются одним из эффективных средств классифицирования.

Кластерный анализ

Задача кластерного анализа состоит в выяснении по эмпирическим данным, каким образом элементы "группируются" или распадаются на изолированные "скопления" — "кла — стеры" (cluster (англ.) – гроздь, скопление), причем никаких априорных предположений о классовой структуре, как правило, не делается. Иными словами, задача анализа заключает — ся в выявлении естественного разбиения на классы, свободного от субъективизма исследо — вателя, а цель – в выделении групп однородных объектов, сходных между собой, при от — четливом отличии этих групп друг от друга.

Абсолютное большинство методов кластеризации [942, 1261, 1252] основывается на

анализе квадратной и симметричной относительно главной диагонали матрицы D коэффи — циентов сходства (расстояния, сопряженности, корреляции и т. д.) между объектами ис — ходной матрицы наблюдений:

.

В ЭИС REGION реализована возможность расчета матрицы D по заданному набору

показателей с использованием различных формул для меры дистанции, выбираемых поль — зователем. Наиболее общей формулой для подсчета расстояния в m-мерном признаковом пространстве между объектами X1 и X2 является мера Минковского [1252]:

,

где r и p – параметры, определяемые исследователем, с помощью которых можно прогрес — сивно увеличить или уменьшить вес, относящийся к переменной i, по которой соответст — вующие объекты наиболее отличаются. Параметр p ответственен за постепенное взвеши — вание разностей по отдельным координатам, параметр r определяет прогрессивное взве — шивание больших расстояний между объектами.

Мера расстояния по Евклиду получается, если в метрике Минковского положить r = p = 2, и является, по-видимому, наиболее общим типом расстояния, знакомым всем по школьной теореме Пифагора, – геометрическим расстоянием в многомерном пространстве, которое вычисляется следующим образом:

.

Заметим, что евклидово расстояние может быть вычислено как по исходным, так и по стандартизованным данным (например, нормированным на интервале от 0 до 1).

При r = p = 1 метрика Минковского дает "расстояние городских кварталов" (ман-хэттенское расстояние), которое является просто суммой разностей по координатам:

.

В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших

разностей (выбросов) уменьшается, так как они не возводятся в квадрат.

При r = p ® ¥ имеем метрику доминирования (она же, супремум-норма или рас-стояние Чебышева), которая вычисляется по формуле:

DT(X1,X2) = max | x1i – x2i | .

Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной лимитирующей координате (каким-либо одним измерением).

Отдавая дань устоявшимся экологическим традициям, в алгоритм формирования матрицы D был включен еще нескольких десятков выражений, часто применяемых для различных шкал (меры сходства Жаккара и Съеренсена, коэффициент корреляции Пирсо — на, коэффициент Гауэра и т. д.)

Программные средства ЭИС REGION обеспечивают расчет компонентов матрицы

расстояний D с использованием любой из перечисленных выше формул, что не имеет принципиального значения для работы собственно алгоритмов классификации, которые реализуются с использованием внешних пакетов прикладных программ. С этой целью реа — лизован вывод сформированной матрицы в файл формата ППП Statistica 5.5.

Собственно кластерный анализ включает в себя набор различных алгоритмов клас — сификации, сутью которых является группировка данных в наглядные структуры (таксо — ны). К этому семейству алгоритмов относятся: иерархическое объединение (древовидная кластеризация), двувходовое объединение, метод К-средних и др.

Пусть исходные данные – матрица сходства ||d(x, y)||, где d(х, у) – некоторая мера близости между каждой парой классифицируемых объектов x и y. Хорошо известно [1955], что для любого заданного разбиения объектов на группы и любого e > 0 можно указать метрику, такую, что расстояния между объектами из одной группы будут меньше e, а между объектами из разных групп – больше 1/e. Тогда любой разумный алгоритм кла- стеризации даст именно заданное разбиение.

Наиболее часто применяется так называемый агломеративный иерархический алго-ритм "Дендрограмма", отдельные версии которого отличаются правилами вычисления рас — стояния между кластерами. Рассмотрим, к примеру, один определенный алгоритм – алго — ритм средней связи. На первом шаге каждый объект рассматривается как отдельный кла — стер. На каждом следующем шаге объединяются две ближайших кластера. Расстояние ме — жду кластерами рассчитывается как средняя связь (отсюда и название алгоритма), т. е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй. В конце концов, все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или "дендрограмму". Из нее можно выделить кластеры раз — ными способами. Один подход — исходя из заданного числа кластеров. Другой – из сооб — ражений предметной области. Третий – исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения, значит оно отражает реальность) и т. д.

К алгоритму средней связи естественно сразу добавить:

· алгоритм ближайшего соседа, когда расстоянием между кластерами считается ми-нимальное из расстояний между парами объектов, один из которых входит в пер-вый кластер, а другой – во второй;

· алгоритм дальнего соседа, когда расстоянием между кластерами считается макси — мальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй.

· невзвешенный и взвешенный центроидный метод (метод Уорда, использующий ме-тоды дисперсионного анализа для оценки расстояний между кластерами) и др.

Каждый из описанных алгоритмов (средней связи, ближайшего соседа, дальнего со-седа), порождает бесконечное (континуальное) семейство алгоритмов кластер-анализа. Де — ло в том, что величина da (х, у), a > 0, также является мерой близости между х и у и поро — ждает новый алгоритм. Если параметр a пробегает отрезок, то получается бесконечно много алгоритмов классификации. При этом каждое полученное разбиение на классы, ра — зумеется, не является "реальными", поскольку отражает, прежде всего, свойства алгорит — ма, а не исходных данных.

В качестве критерия естественноal>расстояний D с использованием любой из перечисленных выше формул, что не имеет принципиального значения для работы собственно алгоритмов классификации, которые реализуются с использованием внешних пакетов прикладных программ. С этой целью реа — лизован вывод сформированной матрицы в файл формата ППП Statistica 5.5.

Собственно кластерный анализ включает в себя набор различных алгоритмов клас — сификации, сутью которых является группировка данных в наглядные структуры (таксо — ны). К этому семейству алгоритмов относятся: иерархическое объединение (древовидная кластеризация), двувходовое объединение, метод К-средних и др.

Пусть исходные данные – матрица сходства ||d(x, y)||, где d(х, у) – некоторая мера близости между каждой парой классифицируемых объектов x и y. Хорошо известно [1955], что для любого заданного разбиения объектов на группы и любого e > 0 можно указать метрику, такую, что расстояния между объектами из одной группы будут меньше e, а между объектами из разных групп – больше 1/e. Тогда любой разумный алгоритм кла- стеризации даст именно заданное разбиение.

Наиболее часто применяется так называемый агломеративный иерархический алго-ритм "Дендрограмма", отдельные версии которого отличаются правилами вычисления рас — стояния между кластерами. Рассмотрим, к примеру, один определенный алгоритм – алго — ритм средней связи. На первом шаге каждый объект рассматривается как отдельный кла — стер. На каждом следующем шаге объединяются две ближайших кластера. Расстояние ме — жду кластерами рассчитывается как средняя связь (отсюда и название алгоритма), т. е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй. В конце концов, все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или "дендрограмму". Из нее можно выделить кластеры раз — ными способами. Один подход — исходя из заданного числа кластеров. Другой – из сооб — ражений предметной области. Третий – исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения, значит оно отражает реальность) и т. д.

К алгоритму средней связи естественно сразу добавить:

· алгоритм ближайшего соседа, когда расстоянием между кластерами считается ми-нимальное из расстояний между парами объектов, один из которых входит в пер-вый кластер, а другой – во второй;

· алгоритм дальнего соседа, когда расстоянием между кластерами считается макси — мальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй.

· невзвешенный и взвешенный центроидный метод (метод Уорда, использующий ме-тоды дисперсионного анализа для оценки расстояний между кластерами) и др.

Каждый из описанных алгоритмов (средней связи, ближайшего соседа, дальнего со-седа), порождает бесконечное (континуальное) семейство алгоритмов кластер-анализа. Де — ло в том, что величина da (х, у), a > 0, также является мерой близости между х и у и поро — ждает новый алгоритм. Если параметр a пробегает отрезок, то получается бесконечно много алгоритмов классификации. При этом каждое полученное разбиение на классы, ра — зумеется, не является "реальными", поскольку отражает, прежде всего, свойства алгорит — ма, а не исходных данных.

В качестве критерия естественно т/чел. Z_AA

Образование токсичных отходов, т/чел. Z_TO Общая заболеваемость на 1000 чел. M_OZ Болезни органов дыхания на 1000 чел. M_OD Смертность от рака кожи на 100 тыс. чел. M_RK Число умерших детей в возрасте до 1 года на 1000 родившихся M_DS

На рис. 8 приведены дендрограммы иерархической классификации административ — ных единиц Волжского бассейна с использованием различных методов и метрик для мат — рицы расстояний объектов по всему представленному списку показателей. На рис. 9 пока — зано разбиение тех же точек на 5 заданных классов с использованием итеративной проце — дуры к-средних Мак-Кина, локализующей сгущения в многомерном пространстве из 15 признаков.

Характер полученных классификаций может быть оценен как умеренно размытый. Все алгоритмы устойчиво подчеркивают абсолютную уникальность Московской области, хотя метод дальнего соседа наделил подобной специфичностью и Башкирию. Также еди — нодушно подчеркивается относительная близость Нижегородской и Кировской, Калуж — ской и Пензенской, Мари Эл и Ульяновской областей.

 

 

 

а) Метод ближнего соседа (ось Y – евклидово расстояние) в) Метод средней связи (ось Y – манхеттенкое расстояние)

б) Метод дальнего соседа (ось Y – евклидово расстояние) г) Метод Уорда (ось Y – манхеттенское расстояние)

Рис 8. Дендрограммы классификации административных территорий Волжского бассейна с использованием различных методов и мер рас-стояний (условные обозначения областей — см. на рис. 9 )

195

Рис. 9. Разбиение административных территорий Волжского бассейна на классы

с использованием алгоритма к-средних и расстояния по Евклиду в пространстве 15 показателей

Редукция данных методами факторного анализа и многомерного шкалирования

Для понижения размерности исходной информации (редукция данных) использу-ются различные методы: факторный анализ и выделение главных компонент, многомерное шкалирование, нейросетевое моделирование, саморганизующиеся карты Кохонена.

Сущность факторного анализа заключается в представлении исходных показателей

Х в виде некоторой совокупности латентных переменных F, называемых факторами:

,

где p<<m. При этом формируется оптимальное пространство новых ортогональных (вза-имно некоррелированных) переменных без существенной потери содержательной инфор — мации, содержащейся в исходных данных. В основу анализа главных компонент положе — но, что факторы являются линейной комбинацией исходных показателей.

где

Fk (k = 1, p)

– главные компоненты, a jk

,

с использованием алгоритма к-средних и расстояния по Евклиду в пространстве 15 показателей

Редукция данных методами факторного анализа и многомерного шкалирования

Для понижения размерности исходной информации (редукция данных) использу-ются различные методы: факторный анализ и выделение главных компонент, многомерное шкалирование, нейросетевое моделирование, саморганизующиеся карты Кохонена.

Сущность факторного анализа заключается в представлении исходных показателей

Х в виде некоторой совокупности латентных переменных F, называемых факторами:

,

где p<<m. При этом формируется оптимальное пространство новых ортогональных (вза-имно некоррелированных) переменных без существенной потери содержательной инфор — мации, содержащейся в исходных данных. В основу анализа главных компонент положе — но, что факторы являются линейной комбинацией исходных показателей.

где

Fk (k = 1, p)

– главные компоненты, a jk

,

 

– факторные нагрузки;

Как было показано в разделе 1, получаемые факторы упорядочены по степени объ — яснения статистической вариации в пространстве показателей. Процедура последователь — ного выделения главных компонент подобна вращению, максимизирующему в итоге оста — точную дисперсию исходного пространства признаков. Вычисления основаны на опреде — лении собственных значений (λ) корреляционной матрицы (R) исходных показателей. Вы — бор количества факторов (главных компонент) – произвольное решение, однако сущест- вуют критерий Кайзера и критерий каменистой осыпи Кэттеля.

На практике наиболее ценной является плоскость первых двух главных компонент, дающая возможность представить многомерное облако данных в виде наглядной двумер — ной картинки. Такая визуализация позволяет выявить основные закономерности, прису — щие набору данных: его внутреннюю структуру, изначальное разделение данных на клас — сы (если таковое имеется), существование различных зависимостей между признаками и так далее.

 

Рассмотрим пример визуализации областей Волжского бассейна на основе метода главных компонент в пространстве 15 переменных, использованных для иллюстрации кла — стерного анализа. После редукции исходного пространства к 2 главным компонентам по — лученное разложение объясняет 39,5 % статистической вариации рассматриваемых пока — зателей. Интерпретировать полученные факторы можно с помощью графика факторных нагрузок (рис. 10): очевидно, что первый фактор определяется, в основном, валовым ре — гиональным доходом (E_VP), плотностью населения (E_PN) и детской смертностью (M_DS), а второй фактор – совокупностью остальных медицинско-статистических показа — телей, загрязнением (Z_KP) и сбросом сточных вод (Z_SV) .

Рис.10. График отображения факторных нагрузок (обозначения показателей – по тексту)

Используя рассчитанные факторные нагрузки как коэффициенты линейного преоб — разования, можно сформировать редуцированную матрицу исходных данных, где столб — цами являются новые факторизованные признаки. Анализ двухмерной визуализации вза — имного расположения объектов на рис. 11 показывает, что в целом в результате редукции подтверждаются структурные соотношения, установленные в ходе кластерного анализа: по экстенсивным показателям (фактор 1) выделяется Московская обл., а по относительной экологической стабильности (фактор 2 – Башкирия).

Моделирование данных с помощью линейных факторов является оптимальными

лишь в случае близкого к нормальной выборке облака точек в пространстве исходных пе — ременных. Поэтому особый интерес представляют принципиально нелинейные способы редукции и визуализации, учитывающие некоторые важные характеристики структуры данных и позволяющие построить эффективную технологию анализа таблиц реальных по — казателей.

Одним из нелинейных методов отображения векторов {x }N

из многомерного про-

n 1

странства описания Rm в пространство R2 является алгоритм многомерного шкалирования

(МШ) данных [1360], основанный, как и кластерный анализ, на целенаправленном преоб-разовании матриц сходства D, заранее сформированных на исходном множестве показате — лей. МШ – это не столько определенная математическая процедура, сколько способ наи — более эффективного размещения объектов, приближенно сохраняющий расстояние между ними в новом пространстве признаков, размерность которого существенно меньше исход — ного. Хотя методы многомерного шкалирования не связаны никакими ограничениями по закону распределения многомерных векторов, его основным недостатком является отсут-

лнения к ЭИС REGION используется нейросетевой процессор Statistica Neural NetWorks 2.0.

Для того чтобы осуществить нелинейное понижение размерности исходной матри-цы показателей по областям Волжского бассейна, используемой в предыдущем примере, выберем пятислойную сеть (см. рис. 13). Ее средний (третий) слой служит для уменьшения размерности, а соседние с ним слои, отделяющие его от входного и выходного слоев, вы — полняют нелинейные преобразования.

Рис. 13. Автоассоциативная сеть, использованная для понижения размерности матрицы из 15 показателей по областям Волжского бассейна

Выполним следующие действия:

· построим автоассоциативную сеть – персептрон с пятью слоями, как показано на

рис. 13, причем значения, которые подаются на вход 15 нейронов 1-го слоя соответ-ствуют значениям на выходе нейронов 5-го слоя;

· обучим автоассоциативную сеть на имеющейся выборке с использованием любого итеративного алгоритма (для определенности используем метод сопряженных гра- диентов);

· удалим два последних слоя автоассоциативной сети и на выходе двух нейронов

третьего слоя получим сеть для препроцессирования, с помощью которой генериру — ется версия входных данных в уменьшенной размерности: те же строки исходной таблицы, относящиеся к разным территориальным участкам, но количество варьи — руемых признаков редуцировано от 15 к 2 без существенной потери информации.

Двухмерная визуализация классифицируемых объектов в осях полученных главных факторов, представленная на рис. 14 , в целом сохраняет основную пространственную предупорядоченность территориальных единиц Волжского бассейна, полученную в ходе кластерного анализа, с помощью главных компонент и многомерного шкалирования (см. рис. 8-12). Некоторая имеющая место модификация пространственного расположения то — чек можно объяснить учетом нелинейных искажений исходного пространства переменных.

Рис. 14. Отображение территориальных единиц Волжского бассейна в пространстве двух главных факторов, полученный методом нейросетевого моделирования (обозначения те же, что и на рис. 9)

Самоорганизующиеся карты Кохонена

Выполним предварительно небольшое формальное обобщение вышеизложенного.

Задача классификации [1019] заключается в разбиении объектов на классы, причем основой для разбиения служат векторы параметров объекта. Объекты в пределах одного класса считаются эквивалентными с точки зрения критерия разбиения. Сами классы часто бывают неизвестны заранее, а формируются динамически. Т. е. и сети Кохонена, и все рас — смотренные выше методы реализуют концепцию "классификации без учителя": состав и количество полученных классов зависят только от предъявляемых объектов, и поэтому до — бавление нового объекта или исключение имеющегося может вызвать корректировку сис — темы классов.

Будем характеризовать объекты, подлежащие классификации, вектором параметров хр Î X. Введем также множество классов {Cm} в пространстве классификации С: (С1È C2… È CM) Ì C. Пространство классов может не совпадать с пространством объектов Х и, как правило, имеет меньшую размерность. Определим ядра классов {cm} = с1,…,сm в про — странстве классов С, как объекты, типические для своего класса. Введем также меру дис — танции d(xp, сm) — скалярную функцию от объекта и ядра класса, которая тем меньше, чем больше объект похож на ядро класса. Задавшись числом классов М, можно поставить за- дачу классификации: найти M ядер классов {cm}и разбить объекты {хр} на классы {Cm}, т. е. построить функцию т(р) таким образом, чтобы минимизировать сумму мер дистан — ции:

.

Функция т(р), определяющая номер класса по индексу p множества объектов {хр},

задает разбиение на классы и является решением задачи классификации.

Выберем евклидову меру дистанции. В этом случае ядро класса, минимизирующее

сумму мер близости для объектов этого класса, совпадает с центром тяжести объектов:

,

где N(m0) — число объектов хр в классе wq. Тогда при разбиении на классы должна быть минимизирована суммарная мера близости для всего множества {хр} входных объектов:

 

.

i i å

ijl

ijl

Поскольку сумма å x p c m ‘ очень напоминает взвешенную сумму

i

w x, рас-i

считываемую формальным нейроном, алгоритм нахождения приведенного оптимума легко реализуется в виде нейронной сети. Для этого требуется сконструировать М сумматоров, настраивающих все Dm, p выходов сети, и интерпретатора, находящего сумматор m с мак — симальным выходом.

Таким образом, нейронная сеть, используемая для классификации, будет иметь М выходов, равное числу классов. Если выбрать в качестве входных данных вектор парамет — ров единственного объекта, то результатом работы уже обученной сети будет код класса, к которому принадлежит предъявленный на входе объект. При этом, чем большее значение принимает выход номер wq, тем больше "уверенность" сети в том, что входной объект принадлежит к классу wq.

Рассмотренная сеть нейронов, использующая евклидову меру близости для класси-фикации объектов, называется сетью Кохонена (рис. 15) и обсуждалась ранее в разделе 1

как эффективное средство визуализации. Нейроны слоя Кохонена генерируют на выходе сигналы Dm, p, причем максимальный сигнал соответствует номеру класса объекта, кото — рый был предъявлен на входе, в виде вектора хр.

Рис.15. Сеть Кохонена

В описываемой сети ядра сm являются весовыми коэффициентами нейронов. Каж — дый нейрон запоминает одно ядро класса, и отвечает за определение объектов в своем классе, т. е. величина выхода нейрона тем больше, чем ближе объект к данному ядру клас — са. Общее количество классов совпадает с количеством нейронов, но, меняя размерность проекционного ячеистого экрана, можно динамически менять количество классов.

Задача обучения – настроить все коэффициенты активации и научить сеть активи — ровать один и тот же нейрон для похожих векторов хр на входе. Для этого веса сети на — страиваются итеративным алгоритмом, который в целом аналогичен многим известным приемам классификации, но изобилует различными эвристическими приемами, позво — ляющими получить устойчивое и субоптимальное решение за минимальное число итера — ций. В особенности технологии обучения входят правильное распределение плотности

ядер с использованием метода выпуклой комбинации, искусственное подавление активно — сти нейронов-победителей, перераспределение весов среди нейронов R-окрестности и т. д. В литературе представлено детальное описание всех математических аспектов итеративно — го алгоритма, что избавляет нас от необходимости приводить детальное его изложение.

В результате обучения сети Кохонена строится совокупность карт, каждая из кото-рых представляет двумерную сетку узлов, размещенных в многомерном пространстве. При этом используется такое раскрашивание карты, когда цвет каждого нейрона отражает ве — личину связанного с ним визуализируемого критерия (расстояние между узлами, вклад то — го или иного исходного показателя, среднеквадратичную ошибку квантования и т. д.). Са — мый простой вариант — использование градаций серого цвета. В этом случае ячейки, соот — ветствующие узлам карты, в которые попали элементы с минимальными значениями ком — понента или не попало вообще ни одной записи, будут изображены белым цветом, а ячей — ки, в которые попали записи с максимальными значениями такого компонента, будут со — ответствовать ячейке черного цвета. В принципе, для раскраски можно использовать лю — бую иную градиентную палитру.

Для формирования карт Кохонена в системе ЭИС REGION предусмотрен информа — ционный интерфейс с аналитическим пакетом Deductor Professional – набором приложе — ний, предназначенных для быстрого и эффективного анализа информации.

Выполним построение самоорганизующихся карт для анализа пространственного

распределения по территории Волжского бассейна 15 показателей, которые мы использо — вали в предыдущих примерах. Как и при применении итерационной процедуры кластери — зации методом к-средних Мак-Кина, из всех возможных разбиений было задано деление на 6 кластеров.

Три карты, представленные на рис. 16, показывают общие итоги классификации. На карте а) отображаются группы векторов, расстояние между которыми меньше, чем рас — стояние до соседних групп. Иными словами, все элементы карты, входящие в область од — ного цвета, имеют сходные между собой признаки и определяют границы областей класте — ров, число которых было задано.

На карте б) рис. 15 представлена компонента UMatrix – унифицированая матрица

расстояний, используемая для тонкого анализа структуры кластеров, полученных в резуль — тате обучения карты. Элементы матрицы определяют расстояние между весовыми коэф — фициентами нейрона и его ближайшими соседями. Большее значение говорит о том, что данный нейрон сильно отличается от окружающих и может принадлежать другому классу: например, можно предположить, что Татарстан имеет меньше оснований относиться к кластеру 4, чем. Пензенская обл.

На карте в) представлена маркировка узлов: для каждого нейрона ищется точка в исходном наборе данных (т. е. территориальная единица Волжского бассейна), ближайшая к каждому узлу или совпадающая с ним. По сравнению с аналогичными классификациями, сделанными другими методами, появились определенные модификации: например, Мос — ковская область все же объединилась с Волгоградской и Башкортостаном, зато оказалась неожиданно подчеркнута уникальность Рязанской обл. В то же время, по-прежнему вместе Кировская, Нижегородская, Ульяновская, Самарская области и Татарстан, объединенные

4-м кластером, а также такие географические антиподы, как Тверская и Саратовская об-ласти (см. кластер 1) .

Построенная совокупность (атлас, "слоеный пирог") карт отображает также проек-ции не только объектов, но и каждого исходного показателя, составляющего многомерные векторы, на сетку нейронов, которые соответствующим образом окрашиваются согласно значению того или иного признака. Процесс объяснения структурных механизмов объеди — нения при помощи самоорганизующихся карт собственно и сводится к получению этих самых проекций и анализу образующихся групп кластеров. (см. рис. 16).

 

а) Выделенные кластеры ячеек б) Матрица расстояний UMatrix

в) Связь узлов карты с территориальными единицами Волжского бассейна

Рис. 16 . Классификация территориальных единиц Волжского бассейна с использованием самоорганизующихся карт Кохонена (обозначения те же, что и на рис. 9).

Например, можно предположить, что объединение исходных объектов в области в значительной мере произошло в силу следующих показателей, являющихся своеобразны — ми "визитными карточками" классов:

· кластер 3 — высокая смертность от рака кожи: фиг. а) рис. 17;

· кластер 2 — большое производство электроэнергии: фиг. б) рис. 17;

· кластер 5 — высокий уровень автомобилизации: фиг. в) рис. 17;

· кластер 4 — внесение минеральных удобрений фиг. г) рис. 17.

Впрочем, подобные выводы так же "полуинтуитивны", как и "предметное наполне-ние" факторов при анализе главных компонент.

 

а) Смертность от рака кожи на 100 тыс. чел

в) Выбросы в атмосферу

от автомобильного транспорта, т/чел.

б) Производство электроэнергии,

млн. кВт в час/чел.

г) Внесение минеральных удобрений,

кг/га

Рис. 17. SOM-карты для анализа вклада отдельных показателей в классификацию территориальных единиц Волжского бассейна

5. Введение в "индексологию";

алгоритмы получения комплексных показателей

В экологии не существует таких объектов и не изобретено таких "линеек", совме — щение которых позволило бы путем считывания чисел со шкалы определить, например, объем валовой продукции экосистемы, ее "биоценозное качество" или темпы сукцессион — ных изменений. Экологические измерения почти всегда косвенные или производные. Эко — логические величины определяются путем расчета индексных выражений, формулы ис — числения которых задаются некоторой субъективно определенной схемой (операциональ — ным определением). Более того, первичные измерения, имеющие в физике фундаменталь- ное значение (счет, физические измерения веса, объема, длины особей и т. д.), в экологии, как правило, экологического характера не имеют. Сравниваемый характер они приобрета — ют лишь после своей свертки в экологические величины, характеризующие объект на уровне популяции, трофической группы или биоценоза в целом.

В целом ряде областей науки при сопоставлении каких-либо данных, характери-зующих явление или процесс во времени и в пространстве, широкое употребление нашли

индексы – относительные статистические величины, показывающие, насколько уровень изучаемого явления в данных условиях отличается от уровня того же явления в других ус — ловиях. Они олицетворяют попытку относительно просто и практически целенаправленно рассчитать и соизмерить сложные объекты или системы, состоящие из непосредственно несопоставимых элементов. Полученные на основе индексного метода расчетные показа — тели могут использоваться в более сложных математических моделях для характеристики развития анализируемых процессов во времени или по территории, для выявления струк — туры, взаимосвязей и роли отдельных факторов в динамике сложных систем.

Остановимся на способах вычисления так называемых общих индексов, которые

представляют собой вектор значений результирующего комплексного показателя, полу — ченного в результате информационной свертки (редукции) некоторого подмножества ин — дивидуальных показателей. К настоящему времени практически общеупотребительной схемой такого обобщения данных в экологии и экономике являются методы, основанные на гипотезе аддитивности индивидуальных вкладов. Получаемый таким образом ком — плексный показатель представляет собой вектор той же размерности, что и базовый, каж — дый i-й компонент которого вычисляется по одной из следующих формул (алгоритм "Суммация"):

· простая сумма

P

X i = å Bij

j=1

(5.1);

· взвешенная сумма

p

X i = å K j × Bij

j=1

(5.2);

· простое среднее

ç

 

æ

X i = ç

è

p

å

j =1

Bij

÷

 

ö

÷ / p

ø

(5.3);

· взвешенное среднее

X i

ç

 
æ

X i = ç

è

p

å

j =1

Bij

÷

 

ö

÷ / p

ø

(5.3);

· взвешенное среднее

X i

/

 

å

 

K

 

ö p

÷

÷ j

ø j =

(5.4),

1 1

где Bij – компоненты j-го вектора, порождающего подмножества из p исходных показате — лей, выраженные в нормированной шкале; Kj – весовые коэффициенты, отражающие отно — сительную важность j-го показателя в конструкции обобщенного показателя. Множитель Kj представляет собой произвольное положительное или отрицательное число, задаваемое методами экспертных оценок. В состав порождающего подмножества могут входить как исходные, так и ранее синтезированные обобщенные показатели. Формулы являются вза — имно приводимыми: например, если принять Kj = 1, то комплексный показатель, рассчи — танный по формуле "взвешенная сумма" будет равен простой сумме баллов исходных по — казателей.

В некоторых случаях используется мультипликативная модель получения ком-p

плексного показателя, например:

X = Õ B Kj,

ij

 

i

 

j =1

которая легко сводится к аддитивной путем логарифмирования исходных переменных.

Однако уместен вопрос: насколько справедлива гипотеза аддитивности примени — тельно к экологическим показателям? По своей природе отображения предметной области индивидуальные показатели могут быть отнесены к двум основным типам: экстенсивные, или объемные, и интенсивные, или относительные.

Экстенсивные показатели в свою очередь обычно имеют смысл запаса или потока. Величины типа запаса регистрируются на конкретный момент времени и имеют элемен — тарные единицы измерения: экземпляр, тонна, джоуль, метр и т. д. Примерами могут быть накопление гумуса в почве, количество аккумулированной энергии, объем популяции или видовая плотность. Величины типа потока определяются только за конкретный период времени и имеют размерность "объем в единицу времени": продукция в день или за веге — тативный период, количество поступающей энергии в час, количество изымаемых из эко — системы биологических ресурсов (например, вылов рыбы) и т. д.

Величины запаса и потока жестко связаны между собой:

Sь[v] + Pi [v/t]t = Se[v] + Po [v/t]t,

где Sь и Se – запасы на начало и конец периода (v – единица измерения), Pi и Р0 – потоки по увеличению и уменьшению запаса (t — период). В частности, это соотношение лежит в основе формирования таблиц материально-энергетического баланса.

По нашему мнению, нет никаких оснований для отклонения гипотезы аддитивности вкладов для экстенсивных показателей. Действительно, использование простой суммы биомасс отдельных составляющих сообществ дает общую биомассу живых организмов в водоеме, взвешенная на ПДК сумма выбросов загрязняющих веществ в атмосферу доста — точно адекватно оценивает общий уровень ее загрязнения и т. д.

Интенсивные показатели являются отношениями экстенсивных или интенсивных

величин. Эти индексы могут иметь разное содержание, разную размерность или быть без — размерными, что определяется формулой их расчета. В подавляющем большинстве случа — ев для получения относительных показателей пытаются "разделить одно на другое": такие интенсивные величины размерности не имеют (т. е. выражаются в долях, процентах, про — милле и т. д.). К ним относятся темпы прироста, коэффициенты пространственного сравне — ния, показатели ценотической и территориальной структуры. Например, в экологии из — вестны:

· индекс Э. А. Пареле, как отношение численности тубифицид к численности олиго-хет в водоеме;

· коэффициент донной аккумуляции, как отношение концентраций вещества в дон-ных отложениях и в воде;

· коэффициент видового сходства Т. Съеренсена, как отношение числа совпавших

видов к общему числу видов для двух сравниваемых проб;

· просто коэффициент k2, как доля энергии, затраченной на продукционные процес-сы, от всей ассимилированной энергии.

Вряд ли можно отрицать полезность и объективность относительных индексов, ес-ли их автор точно знает, "что на что поделить", какие данные при этом использовать и что сравнивать. Однако, как доказывает репрезентативная теория измерений, такие показатели являются, как правило, неаддитивными и их агрегирование нельзя проводить путем расче — та средневзвешенных величин. Пусть, например, в некотором регионе имеется аномально высокая смертность от какого-нибудь эпидемического заболевания (скажем, атипичной пневмонии в размере 10%). Предположим, что в том же регионе отсутствует смертность от некоторых других инфекционных заболеваний (укуса мухи цеце, желтой тропической ли — хорадки и "коровьего бешенства"). Нетрудно предположить, что комплексный показатель, равный средней заболеваемости (2.5%), не будет адекватно отражать реальный уровень эпидемиологической обстановки в регионе…

Можно привести много других примеров того, как "осредняя" несколько исходных показателей и превращая их в "интегральный" индекс, мы неизбежно сводим все множест — во информационно насыщенных сигналов к некоторому средневзвешенному узкополосно- му уровню ("обрезаем все неровности, превращая мир данных в хорошо подстриженную лужайку"). Это особенно характерно для оценки градаций экологического состояния изу — чаемого объекта по всему имеющемуся множеству показателей. Для состояния, характери — зуемого как "экологическая катастрофа", вполне достаточно, чтобы всего лишь один из анализируемых компонентов превысил летально опасный уровень загрязнения. Если, на — пример, все остальные показатели находятся на безопасном уровне воздействия, то ком — плексный индекс, построенный с использованием гипотезы аддитивности, вполне может оценить текущую экологическую обстановку как вполне стабильную.

Другим возможным вариантом синтеза комплексных показателей является метод

оценки расстояния до критического звена. Пусть, например, установлено, что на всем множестве объектов (в случае ЭИС REGION — пространственно ограниченных участков территории) имеется "наихудший эталон" – многомерная точка, для которой по анализи — руемому набору исходных показателей имеют место наихудшие значения, из всех встре — чающихся, с точки зрения благоприятности условий окружающей среды. Тогда значение

комплексного показателя для всех остальных точек может быть интерпретировано как функция расстояния от данного объекта до выделенного "наихудшего эталона". По совер — шенно аналогичному принципу может быть определен "наилучший эталон" и найден век — тор расстояний от каждой точки до найденного экстремума. Если, например, использовать в качестве метрики пространства расстояние по Евклиду, то будет подчеркнуто влияние отдельных координат, имеющих аномально большие разности, поскольку они возводятся в квадрат.

В общем случае поиск "крайних точек" в многомерном пространстве является не — тривиальной оптимизационной задачей. Рассмотрим два эвристических алгоритма, ис — пользуемых в ЭИС REGION для расчета комплексных показателей с использованием кон — цепции расстояний. Внутреннее содержание этих алгоритмов основывается на том обстоя — тельстве, что в ходе преобразования исходных показателей в нормированную шкалу (см. раздел 3) учитывается их взаимосвязь с понятием "экологическое состояние", т. е. для всех переменных при изменении их значений от 1 до 6 прогнозируется снижение качества ок — ружающей среды.

Первый алгоритм (процедура "Свертка") основан на использовании методов фак- торного анализа. При этом все подмножество обобщаемых показателей свертывается к двум главным компонентам и многомерное облако объектов проецируется на факторную плоскость. Наихудшая критическая точка соответствует участку, расположенному в верх — нем правом углу двухмерной диаграммы факторных оценок, а наилучшая краевая точка — в левом нижнем углу (см. рис. 18). Значение комплексного показателя может быть опреде — лено, например, как взвешенное расстояние от смещенного начала координат до каждой анализируемой точки:

x Pi =

[l1 ( f i1 —
min

В общем случае поиск "крайних точек" в многомерном пространстве является не — тривиальной оптимизационной задачей. Рассмотрим два эвристических алгоритма, ис — пользуемых в ЭИС REGION для расчета комплексных показателей с использованием кон — цепции расстояний. Внутреннее содержание этих алгоритмов основывается на том обстоя — тельстве, что в ходе преобразования исходных показателей в нормированную шкалу (см. раздел 3) учитывается их взаимосвязь с понятием "экологическое состояние", т. е. для всех переменных при изменении их значений от 1 до 6 прогнозируется снижение качества ок — ружающей среды.

Первый алгоритм (процедура "Свертка") основан на использовании методов фак- торного анализа. При этом все подмножество обобщаемых показателей свертывается к двум главным компонентам и многомерное облако объектов проецируется на факторную плоскость. Наихудшая критическая точка соответствует участку, расположенному в верх — нем правом углу двухмерной диаграммы факторных оценок, а наилучшая краевая точка — в левом нижнем углу (см. рис. 18). Значение комплексного показателя может быть опреде — лено, например, как взвешенное расстояние от смещенного начала координат до каждой анализируемой точки:

x Pi =

[l1 ( f i1 —
min

2 i 2 2

 

где fi1 и fi2 – координаты i-го анализируемого региона в пространстве двух главных ком- понент, f1min и f2min – минимальные значения соответствующих факторных оценок, l1 и l2 – значения собственных чисел.

Рис. 17. Отображение территориальных единиц Волжского бассейна в пространстве двух главных компонент после редукции 11 медико-статистических показателей (обозначения те же, что и на рис. 8)

Второй алгоритм (процедура "Оценивание") осуществляет выборку из базы данных по каждому j-му обобщаемому показателю значений минимума Xmin и максимума Xmax. Далее реализуется стандартная процедура вычисления расстояний от каждого i-го участка до Xmin и Xmax по евклидовой метрике:

R

 

=

 

min

i

p

å( xij — X

2

 

in j )

Rmax =

p

å( x — X )2

m

j =1

и i ij

j =1

max j.

На основании этих величин, а так же расстояния

j

 

2

 

p

Rmin — max =

å( X max j

— X min ) ,

j =1

осуществляется проецирование координат каждого участка на отрезок [Xmin ¸ Xmax]:

( Rmin )2 — ( Rmax )2 + R 2

x p i

= i i min — max

2Rmin — max

. (5.6)

Комплексные показатели, полученные по любой из описанных трех процедур, под — вергаются стандартному преобразованию в нормированную шкалу, сохраняются в базе данных и, наряду с другими индивидуальными показателями, могут быть использованы в дальнейшей обработке методами статистического моделирования или отображены на кар — тограмме.

Одной из важнейших характеристик любых эколого-экономических моделей явля-ется вопрос их адекватности. К сожалению, специфика предметной области не позволяет использовать активный эксперимент и интерпретировать рассогласование модельных и экспериментальных данных как признак неадекватности некоторых из принятых аксиом. С другой стороны, для одного и того же эколого-экономического явления или процесса можно, как правило, составить много возможных моделей или много разновидностей од — ной базовой модели. Поэтому необходимы какие-то дополнительные условия, которые по — зволяли бы из множества возможных моделей и математических методов выбрать наибо — лее подходящие. В качестве одного из подобных условий обычно выдвигается требование устойчивости метода анализа данных относительно исходных допустимых отклонений, предпосылок модели или условий применимости метода.

Предположим, как это сделано в монографии [1952], что имеются исходные дан — ные, на основе которых принимаются решения, а способ переработки (отображения) ис — ходных данных в решение назовем моделью. Таким образом, с общей точки зрения модель

— это функция, переводящая исходные данные в решение, причем конкретный способ пе-рехода особенного значения не имеет. Отметим, что в большинстве случаев исследовате — лей и практических работников, как правило, мало интересует тот модельный формализм, который был использован при выработке решения. Вместе с этим, очевидно, что предла — гаемые решения формулируются в условиях неполноты информации и допущений мето — дов моделирования, поэтому более важны какие-то заключения относительно устойчиво — сти полученных моделей к этим допустимым неопределенностям. Общая схема оценки чувствительности и устойчивости статистических процедур подробно представлена в ци — тированной монографии.

Другим способом повышения устойчивости решений является формирование кол — лектива моделей-предикторов, эффективность которого практически всегда оказывается значительно выше любого из его членов [179, 1008, 2291]. При этом очевидна аналогия с методами коллективного решения, столь эффективно использующимися в обществе [2212,

1553]. Структурные связи в коллективе выбираются таким образом, чтобы положительные свойства той или иной индивидуальной модели дополняли друг друга, а отрицательные – компенсировались (т. е. срабатывал бы эффект системности типа "целое больше суммы своих частей").

В разделе 4 мы попытались на вербальном уровне оценить устойчивость различных разбиений территориальных единиц Волжского бассейна на классы. Рассмотрим теперь на конкретном примере устойчивость получаемых обобщенных показателей в зависимости от конкретного алгоритма комплексации. Поскольку основной задачей разработанной ЭИС является визуализация и анализ взаимной предупорядоченности участков территории по сумме анализируемых переменных, абсолютные значения комплексных показателей и ха — рактер их распределения важен нам лишь настолько, чтобы обеспечить робастное отнесе — ние точек к одним и тем же диапазонам (баллам) стандартной нормировочной шкалы.

Выделим в базе данных по Волжскому бассейну 11 медико-статистических показа-телей (общая заболеваемость, канцерогенные новообразования, болезни системы кровооб — ращения, органов дыхания, пищеварения на 1000 чел. в 2001 г. и т. д.) и рассчитаем тремя различными алгоритмами комплексный показатель уровня заболеваемости, обобщающий представленные данные "одним числом".

· По первому алгоритму "Суммация" осуществим простое суммирование баллов стандартной нормированной шкалы по формуле (5.1).

· В соответствии со вторым алгоритмом "Свертка" выполним редукцию 11 исходных показателей к двум главным компонентам (см. рис. 16), которые в этом конкретном

случае объясняют свыше 64% имеющегося статистического разброса. Расчет ком-плексных показателей проведем по формуле (5.5).

· По третьему алгоритму "Оценивание" обобщение индивидуальных показателей вы- полним по формуле (5.6), определяющей положение каждой многомерной точки внутри "минимаксного облака".

Для сопоставления полученных результатов преобразуем рассчитанные комплекс-ные индексы в стандартную 6-балльную шкалу и определим для каждой территориальной единицы ее ранги – порядковые номера в отсортированных списках, упорядоченных по возрастанию результирующего показателя по каждой использованной версии (см. табл. 2)

Представленные результаты свидетельствуют о вполне очевидной устойчивости

решений, мало зависящих от типа алгоритма. Основываясь на использовании коэффициен — та корреляции Спирмена, ранговые последовательности территориальных единиц, сфор — мированных разными методами, имеют высокий уровень сходства: от 0.8 между алгорит — мами 2 и 3 до 0.91 между алгоритмами 1 и 3. Нулевая гипотеза, формулируемая как "нет корреляции между выборками", отклоняется с высоким уровнем значимости. В 88% случа — ях рассчитанные комплексные показатели либо полностью совпадают, либо имеет место частный сдвиг в соседнюю градацию.

6. Моделирование причинно-следственных связей

Важной задачей ЭИС в построении прогнозов изменения состояния экосистемы или изменения "качества" окружающей среды в рамках отдельного региона является анализ причинно-следственных связей между индивидуальными и комплексными показателями.

Любая эколого-экономическая система представляет собой большой, сложный, сла — бо детерминированный и эволюционирующий объект исследования. Теория самооргани — зации моделей показывает, что этот объект, как и огромное большинство других процессов в природе, может быть описан, например, в виде полиномов высокой степени, являющихся частным случаем обобщенного полинома Колмогорова – Габора [1139]:

n n n

n n n

 

y = a 0 + å a i x i + åå a i a j x i x j + ååå a i a j a k x i x j x k

+ …; (6.1)

i =1

i =1

j =1

i =1

j =1 k =1

m + q

 

Число членов полного полинома равно С q

, где m – число переменных, q – степень

полинома, и уже при n = q = 7 достигает 3600.

Таблица 2

Значения комплексных показателей, рассчитанных на основании обобщения

11 медико-статистических признаков тремя использованными алгоритмами

(балл – значение показателя в стандартной нормированной шкале,

СКО – сумма квадратов отклонений от среднего балла)

Регион

Алгоритм

"Суммация"

Алгоритм

"Свертка"

Алгоритм

"Оценивание"

СКО

Балл

m + q

 
Число членов полного полинома равно С q

, где m – число переменных, q – степень

полинома, и уже при n = q = 7 достигает 3600.

Таблица 2

Значения комплексных показателей, рассчитанных на основании обобщения

11 медико-статистических признаков тремя использованными алгоритмами

(балл – значение показателя в стандартной нормированной шкале,

СКО – сумма квадратов отклонений от среднего балла)

Регион

Алгоритм

"Суммация"

Алгоритм

"Свертка"

Алгоритм

"Оценивание"

СКО

Балл

0

Костромская

1

2

1

4

1

3

0

Татарстан

1

3

1

2

2

8

0.67

Саратовская

1

4

1

3

2

6

0.67

Астраханская

2

5

2

6

2

5

0

Тульская

2

6

3

10

3

9

0.67

Мордовия

2

7

2

5

1

4

0.67

Рязанская

2

8

3

12

1

2

2

Нижегородская

3

9

3

9

3

11

0

Московская

3

10

4

14

3

12

0.67

Кировская

3

11

3

11

2

7

0.67

Ивановская

3

12

5

17

3

10

2.67

Волгоградская

4

13

4

13

5

20

0.67

Тверская

4

14

4

15

4

14

0

Марийская

4

15

2

7

4

14

4

15

4

14

0

Марийская

4

15

2

7

5

17

4.67

Калужская

4

16

4

16

4

13

0

Чувашия

5

18

0

Пензенская

5

19

5

18

4

16

0.67

Ярославская

5

20

5

20

6

23

0.67

Удмуртия

6

21

6

21

6

21

0

Самарская

6

22

6

22

5

19

0.67

Владимирская

6

23

6

23

6

24

0

Пермская

6

24

6

24

6

22

0

Основная задача моделирования сложных систем на основе структурных уравнений причинно-следственной связи заключается в том, чтобы исключить в полиноме (5.1) под — множество ″лишних″ неинформативных коэффициентов и сохранить необходимое и дос — таточное сочетание объясняющих членов. Сложность синтезированной модели будет оп — тимальной, если необходимая адекватность обеспечивается при минимальном количестве составляющих ее элементов [3083].

Как и в других подсистемах экспертной системы ЭИС REGION блок "Моделирова — ние связей" также предоставляет широкие возможности для построения статистических моделей разного типа и уровня сложности на основе укомплектованной библиотеки мето — дов и алгоритмов.

Модель множественной регрессии

Наиболее простым, но весьма эффективным методом анализа причинно — следственных отношений является построение модели множественной линейной регрес — сии:

p

Yi = b0 + å b j × X ij + e, (6.2)

j =1

где p – количество показателей-регрессоров, n – количество измерений; xij – совокупность варьируемых переменных, определяющих факторы воздействия на исследуемый объект (i

= 1,n, j = 1,p), Yi – параметр состояния i-го объекта (отклик), e – погрешности, искажаю-щие зависимость (независимые случайные величины).

Метод обеспечивает получение компактных и легко интерпретируемых уравнений связи, которые эффективноо могут быть использованы для объяснения. При соблюдении известных исходных предпосылок метод предоставляет также развитый статистический аппарат исследования значимости полученной модели и оценки ее адекватности. В мень — шей степени уравнения этого типа целесообразно использовать для прогнозирования — рас — чета ожидаемых значений отклика Y, поскольку в этом отношении они могут уступать мо — делям МГУА и нейросетевым моделям.

Стандартная процедура линейного множественного регрессионного анализа заклю-чается в определении количественного изменения функции отклика от нескольких причин — факторов и построении такого уравнения плоскости в (p+1)-мерном пространстве, откло — нения результатов наблюдений Yi от которой были бы минимальными. То есть, следует вычислить параметры – значения коэффициентов b0, bj в линейном уравнении

n

Yˆ = b0 + å b j × x j,

i =1

что равносильно минимизации выражения

ˆ

 

n

2

 

å(Yi — Yi )

n

= å(Yi — (b0

+ b1 xi1

2

 

+ … + b j × xij + … + bp xip ))

® min,

i=1

ˆ

i =1

где Yi — расчетные значения исследуемой характеристики i-го объекта. Для отыскания это-го минимума необходимо найти частные производные по всем неизвестным b0, b1,…, bp и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений:

Для решения полученной системы используются стандартные методы линейной ал-гебры (например, метод Гаусса с выбором главного элемента по всей матрице).

Отклонение отдельной точки от плоскости регрессии называется остатком. Чем

меньше отношение суммы квадратов значений остатков к общей сумме квадратов, тем лучше полученная модель (6.2) характеризует зависимость Y от переменных Х. Индикато — ром степени подгонки модели к данным служит коэффициент детерминации (R2), значение которого изменяется от 0 до 1. Чем ближе значение R2 к единице, тем больший процент общей изменчивости Y может быть объяснен и тем точнее построена модель.

В общем случае исходные показатели вносят различный вклад в объяснение и про — гнозирование анализируемого отклика и могут быть разбиты на две категории: информа — тивные переменные, существенные для решения поставленной задачи, и незначимые пе — ременные, несущие мало дополнительной информации для нахождения искомой зависи — мости. Поэтому основной задачей регрессионного анализа является включение в уравне — ние (6.2) минимального подмножества входных информативных переменных x, которое без существенной потери информации позволяет объяснить имеющийся статистический разброс. Отбор таких переменных в традиционной регрессии осуществляют с использова — нием различных секвенциальных (последовательных) процедур, осуществляющих "взве-

шивание" признаков с использованием различных статистических критериев. В итоге с за — данной надежностью из полной матрицы стандартизированных нормальных уравнений выбирается наилучшая невырожденная подматрица, т. е. формируется модель наиболее оп — тимальной структуры. Выполнение этих процедур в ЭИС REGION осуществляется с ис — пользованием двух специализированных программных модулей, реализующих методы И. Я. Лиепы [1510] и М. А. Эфроимсона [3417, 915].

Исключение несущественно влияющих факторов по методу Лиепы осуществляется

следующим образом. Определяются показатели удельного веса влияния факторов Xj :

2

g j = b j Cyx j

R,

p

å b j Cyx j

j =1

где R – коэффициент множественной корреляции

R = 1- Qz Q,

Q – общая сумма квадратов отклонений значений отклика от арифметического среднего:

( )

Q = Y 2 — ;

å i

 

Y 2

å i n

Qz – сумма квадратов отклонений эмпирических значений Y от гиперплоскости регрессии: ;

Сyxj – коэффициент ковариации между Y и фактором Xj;

n n n

Cyx j

nå Yi X ij — å Yi å X ij

= i =1 i =1 i =1 .

n 2

Достоверность показателя удельного веса (γj) вычисляется по формуле:

d j =

g j ( n — p

p — 1)

1 — å g j

j =1

и проверяется по критерию Фишера со степенями свободы v1 = 1, v2 = n — p — 1. Если p — значение, соответствующее Fф(dj, v1, v2) ,больше pcrit, то воздействие фактора считается не — существенным и такой фактор из процедуры вычислений исключается. На следующем ша — ге вычислений пересчитываются коэффициенты bj в пространстве оставшихся факторов. Процесс останавливается, когда останутся только существенные факторы.

В отличие от метода Лиепы, стандартная пошаговая процедура Эфроимсона осуще-ствляет как последовательное включение переменных в модель, так и исключение незна — чимых факторов. При этом используется традиционная статистика – t-критерий для про — верки равенства нулю частного коэффициента корреляции. Квадрат этого критерия имеет F-распределение и поэтому называется последовательным (или частным) F-критерием Фишера для включения (либо исключения).

Выбор первой переменной для включения в модель осуществляется для признака xl, который имеет наибольший по абсолютной величине коэффициент парной корреляции с откликом rql. При этом процедура включения выполняется, если справедливо неравенство для последовательного F-критерия: F > Fo, где Fo – заранее заданное исследователем по — роговое значение. Процесс расширения набора переменных модели повторяется много — кратно, пока статистическая значимость включения очередного признака по F-критерию на каждом шаге превышает заданный порог Fо. После очередного расширения модели ана — лизируется взаимная коррелированность отобранных переменных и, если их взаимосвязь существенна, то лишние факторы, вносящие наименьший вклад, из модели исключаются. Более точно, исключению подлежат те переменные, для которых вычисленное значение

частного F-критерия меньше Fо. Вычисления прекращаются, если не осталось ни одной переменной, для которой вычисленное значение последовательного F-критерия превысило бы заданный порог.

Недостатком классического регрессионного метода является априорное предполо — жение о линейности связи. Поскольку для описания сложно организованных систем необ- ходим учет нелинейности связей, пространство исходных аргументов искусственно рас — ширяется за счет включения псевдопеременных, полученных в результате нелинейного преобразования базисных показателей. Кроме натуральных степеней исходных перемен — ных и различных их алгебраических комбинаций можно использовать и другие функции от них: lnX, X, 1/X , e aX, тригонометрические преобразования, логистическую функ-X a — 1


a

 

цию 1/(1+e–X), преобразование Бокса-Кокса

и т. д.

Рассмотрим в качестве примера моделирования причинно-следственных связей структурно-функциональную идентификацию зависимости между комплексным показате — лем заболеваемости населения (отклик) и 11 индивидуальными показателями, представ — ленными в разделе 3 и использованными в примере кластерного анализа (показатели M_OZ, M_OD, M_RK и M_DS по понятным причинам из списка варьируемых переменных были исключены).

Полученное полное уравнение множественной линейной регрессии (5.2), вклю — чающее все влияющие факторы, является в целом информационно незначимым по крите — рию Фишера – F(11,12) = 1.42, p = 0.27. Из всех 11 коэффициентов при объясняющих пе — ременных статистически значимыми по критерию Стьюдента оказались только 2, учиты — вающие производство электроэнергии (E_PE) и выбросы в атмосферу от автотранспорта (Z_AA). Коэффициент множественной корреляции фактических и расчетных значений r =

0.075.

Процедура исключения незначимых переменных методом Лиепы приводит к ин — формационно значимому компактному уравнению, выражающему обратно пропорцио — нальную зависимость заболеваемости населения от двух перечисленных показателей:

Y = 0.797 — 21.031 E_PE — 2.23 Z_AA, (r = 0. 289).

Уместно заметить, что сам факт исключения переменной из числа регрессоров час — то совсем не означает отсутствие реального влияния отброшенного признака на анализи — руемый показатель. Метод Лиепы старается включить в уравнение статистически незави — симые члены, а в случае их взаимной коррелированности – только один из связанного комплекса показателей. Например, объем производства электроэнергии хотя и косвенно, но более адекватно отражает и объем выбросов в атмосферу ТЭЦ и степень техногенной деградации территории.

Для учета нелинейных взаимодействий дополним исходную матрицу различными математическими функциями от 11 исходных показателей. Число переменных после пре — образования становится равным 47. В расширенном пространстве признаков выполним процедуру включений с исключениями Эфроимсона при пороге включения Fo = 3.5 и по — лучим следующее уравнение регрессии:

Y = 0.897 -3.27599

E _ PE — 2.17 Z_AA,

которое является информационно значимым (F = 4.63) и существенно превосходит линей — ную модель по своим статистическим характеристикам (r = 0.553, стандартное отклонение для остатков s = 0.224).

При снижении порога включения по частному критерию Фишера до Fo = 2.7 можно получить более точную модель:

Y = 2.16 — 3.57

E _ PE

— 1.19

E _VP + 0.135 E_VP — 0.00742 C_MU —

— 19.14 Z_AA + 8.98

Z _ AA

— 9.645/Z_SV + 0.242

Z _ TO

+ 0.0031 Z_KP,

учитывающую дополнительный комплекс исходных показателей — валовый региональный продукт (E_VP), внесение минеральных удобрений (C_MU), образование токсичных отхо — дов (Z_TO), сброс сточных вод (Z_SV), долю проб воды, не отвечающих нормативам (Z_KP), и выполняющую более точную аппроксимацию данных (F = 7.65, r = 0 .91, s =

0.135).

Модели на основе самоорганизации

Математическое моделирование основано на двух возможных подходах:

· традиционном дедуктивном, идущим "от общих закономерностей функционирования объекта – к конкретной математической модели";

· индуктивном, идущим "от конкретных данных наблюдений – к общей модели", т. е. ис- следователь предоставляет выборку, выдвигает гипотезу о возможном классе моделей и задает критерий выбора наилучшей модели в этом классе, после чего за дело прини — мается компьютер.

Задача исследования причинно-следственных связей между факторами эколого-экономической системы и восстановления частных статистических зависимостей по эмпи — рическим данным решается, как правило, с использованием индуктивного пути, поскольку какие-либо априорные предположения о характере внутрисистемных взаимодействий от — сутствуют. Однако все индуктивные методы отличаются тем, что в них общие выводы де — лаются на основании частных фактов, а это может привести как к верным, так и к ошибоч — ным решениям. Причина такой неопределенности состоит в том, что частные факты, на которых основываются общие выводы, не всегда хорошо характеризуют изучаемое явле — ние. Вместе с тем, получаемые общие выводы должны объяснять не только выборочные сведения, но и все изучаемое явление целиком, т. е. общие выводы не должны изменяться при практически бесконечном расширении числа экспериментов. Поэтому качество индук — тивного вывода должно определяться не только и не столько объяснением отдельных фак — тов, полученных в процессе эксперимента, сколько от экстраполяционных способностей этих выводов, их способностью к экспансии в область явления, не охваченную данными.

В задачах восстановления многомерных зависимостей ограниченность информации

накладывает допустимые пределы сложности модели. Чем больше фактов, тем выше мо — жет быть предельная сложность синтезируемой модели и, наоборот, чем беднее фактиче — ский материал, тем беднее по сложности может быть построенная модель. Чем сложнее модель, тем больше у нее возможностей в объяснении ограниченного числа эксперимен — тальных фактов (упрощения приводят к сглаживанию важных деталей). Но всякий раз, ко — гда модель выбирается из слишком сложного класса, все в большей мере не хватает эмпи — рических данных для ее однозначного объяснения (факты просто не в состоянии воссоз — дать такую модель и последняя начинает вести себя причудливо в области, не охваченной экспериментом). Т. к. объем выборок всегда ограничен, неизбежно возникает центральная проблема всех индуктивных методов, состоящая в правильном соотношении сложности аппроксимирующей функции (т. е. сложности модели) с объемом исходных данных для ее обучения.

С конца 60-х годов усилиями украинских кибернетиков [1139] были обозначены основные принципы самоорганизации моделей, которые легли в основе нового направле — ния в математическом анализе данных, известном как метод группового учёта аргументов

– МГУА (Group Method of Data Handling, GMDH). Основной особенностью алгоритмов

МГУА явилось то, что для непрерывных зашумленных данных, метод выбирает оптималь — ную упрощенную нефизическую модель. Модели самоорганизации МГУА можно рас — сматривать как своеобразное связующее звено, объединяющее различные методологиче — ские концепции, представленные как классической параметрической статистикой, так и современными методами искусственного интеллекта.

Отличие алгоритмов МГУА от других алгоритмов структурной идентификации и

селекции лучшей регрессии состоит в следующих свойствах:

· эвристический характер выбора главного критерия и ограничений, лежащих в основе переборной процедуры: в качестве ведущего критерия селекции могут быть использо — ваны различные известные критерии (оценки "скользящего контроля" PRR(s), регуляр — ности AR(s), баланса переменных BL(s) и т. д.);

· большое разнообразие генераторов структур многорядного характера: применяются оригинальные итерационные процедуры полного или сокращенного перебора вариан- тов структур модели;

· свобода выбора: в многорядных алгоритмах МГУА с одного уровня многорядной мо-дели на следующий передаются не один, а несколько лучших результатов;

· внешнее дополнение: исходная выборка делится на части для построения и оценки мо — дели, при этом критерии селекции моделей рассчитываются на новой независимой ин- формации;

· робастность подхода: автоматическая адаптация сложности оптимальной модели и внешних критериев к уровню помех в системе.

С одной стороны, МГУА считается, своего рода, интеллектуальным обобщением

регрессионного анализа, понимаемого в наиболее широком смысле. От классической мно — жественной регрессии МГУА отличается лишь использованием специфических квадра — тичных критериев внешнего или внутреннего типа, а также многорядными итерационными процедурами нахождения оптимального решения задачи. С другой стороны, процедуры МГУА имеют все признаки эволюционного алгоритма – отбор (селекция) и генерация но — вого поколения.

Рассмотрим процесс синтеза модели оптимальной сложности более подробно. Представим функцию, аппроксимирующую набор исходных данных, в общем виде: y = F(x1, …, xm). Выше упоминалось, что такой функцией может быть полином Колмогорова — Габора (6.1), с помощью которого можно добиться весьма точной аппрокимации любой дифференцируемой функции. Заменим эту сложную зависимость множеством частных описаний, т. е. простых функций, аргументами которых является произвольная пара исход — ных аргументов:

y1 = f(x1, x2) ; y2 = f(x1, x3) ; ys = f(xm-1, xm);

где s=C2m, причем вид функции f одинаков для всех пар в течение всего процесса обучения.

Очень часто в качестве функции f выбираются простые зависимости

y(xi, xj) = a0 + a1xi + a2xj + a3xixj

или

i

 

y(xi, xj) = a0 + a1xi + a2xj + a3xixj + a4x 2

y1 = f(x1, x2) ; y2 = f(x1, x3) ; ys = f(xm-1, xm);

где s=C2m, причем вид функции f одинаков для всех пар в течение всего процесса обучения.

Очень часто в качестве функции f выбираются простые зависимости

y(xi, xj) = a0 + a1xi + a2xj + a3xixj

или

i

 

y(xi, xj) = a0 + a1xi + a2xj + a3xixj + a4x 2

j

 

+ a5x 2.

Предварительно вся выборка разделяется на две части: обучающую и проверочную. Тем самым порождается внешнее дополнение (проверочная выборка), которая играет роль сита, отсеивающего все чрезмерно сложные модели, не имеющие права на существование в рамках ограниченной информации. Коэффициенты a0 – a5 частных описаний определя — ются по данным обучающей выборки. В результате комбинаторики возможных пар из m исходных аргументов получается множество решений, поскольку частное уравнение каж — дой пары рассматривается как некоторая упрощенная модель восстанавливаемой функции. Из полученного набора упрощенных моделей первого ряда отбирается часть, например, s* в некотором смысле наилучших, показавших хорошие результаты на проверочной выбор — ке, не участвовавшей в определении коэффициентов уравнений (т. е. на внешнем дополне-нии).

Далее вступает в действие принцип неокончательности решений: ни одна из полу — ченных на первом этапе моделей не принимается за истину и наращивание сложности мо — дели продолжается. Прошедшие самоотбор частные описания формируют множество но — вых переменных, которые являются исходными аргументами для частных описаний 2-го ряда:

z1 = f(y1, y2) ; z2 = f(y1, y3) ; zs = f(ys-1, ys).

Коэффициенты новых моделей находятся по МНК на точках той же обучающей по — следовательности. Новые модели проверяются на точках проверочной последовательно — сти, и среди них выбирается s* наилучших, которые используются в качестве аргументов следующего третьего ряда и т. д.

Сложность общей модели возрастает от ряда к ряду. Так, например, во втором ряду

2 2

появляются нелинейные члены вида (x1x3), (x1 x3), (x1 x2 x3) и т. д. Алгоритм останавлива-ется сразу же по достижении единственного минимума отклонений, полученных на прове-рочной выборке. Количество рядов селекции обычно рекомендуется наращивать до s = (m

— 1), хотя в литературе описан случай, когда самая несмещенная линейная модель в приме-ре с 5 аргументами получилась на 30-м (!) ряду селекции. На практике усложнение модели прекращают, когда дальнейшее улучшение критерия селекции не будет превышать неко — торого числа e (параметр алгоритма). Тем самым выбирается модель оптимальной сложно — сти, устанавливающая компромисс между сложностью и опасностью “переобучения”.

В ЭИС REGION используется авторский модуль, реализующий общую схему мно-горядного алгоритма МГУА с частными описаниями в виде нелинейной функции двух пе — ременных. Поскольку при использовании нелинейных опорных функций отмечается опас — ность потери существенного аргумента, то была использована модификация алгоритма, оптимизирующего на каждом шагу длину частного описания (например, выбирающая вид частного описания с максимумом коэффициента корреляции на проверочной последова — тельности [2560]).

Реализуем алгоритм МГУА на тех же исходных данных, что и при построении мо — делей множественной регрессии. Наилучшая модель МГУА для прогноза заболеваемости населения (Y) при 11 исходных аргументах была получена на 6-м ряду селекции, когда был найден максимум коэффициента корреляции Kкор = 0.983 на примерах проверочной по- следовательности. Оптимальная модель (М6) имела вид:

Y = -0.00352 + 0.702 u1 + 0.304 u2,

где промежуточные переменные u1 и u2 могут быть вычислены по частным описаниям 5-го ряда селекции:

u1 = 0.0517 — 0.663 v1 + 1.567 v7 ,

u2 = 0.0304 — 0.639 v2 + 1.589 v7 .

Аналогичный вид имеют частные описания на остальных промежуточных рядах се-лекции:

4-м ряду:

v1 = — 0.00579 + 0.037 z1 +0.974 z2;

v2 = 0.144 — 0.0768 z2 — 0.057 z4 + 1.485 z2× z4;

v7 = 0.184 + 1.256 z7 — 1.5 z8 — 0.489 z7× z8 + 1.97 z 2;

8

3-м ряду:

z1 = — 0.027 + 0.546 y1 + 0.505 y7;

z2 = 0.0726 + 0.02 y2 + 0.161 y8 + 1.187 y2× y7;

x5 = 0.696 — 0.00595 (Z_SV) + 0.453 (Z_AA) + 0.191 (Z_SV) (Z_AA) — 41.35 (Z_AA)2 ;

x6 = 0.397 — 0.00063 (Z_KP) + 4.1 (Z_AA) + 0.373 (Z_KP) (Z_AA) — 39.54 (Z_AA)2 ;

x7 = 0.3012 + 17.9 (Z_AA) — 371.92 (Z_AA)2 ;

x8 =.0.479 + 0.983 (Z_TO) + 0.905 (Z_AA) — 41.29 (Z_TO) (Z_AA) + 0.074 (Z_TO) .

По 6-рядной модели самоорганизации трудно судить, какой конкретно вклад вносит

каждая из исходных переменных. Можно лишь констатировать их наличие (или встречае — мость) в частных описаниях с помощью следующей структурной таблицы, обозначившей приоритетное влияние на здоровье населения выбросов от автомобильного транспорта:

Наименование

Валовый региональный продукт, млн. руб./чел.

Шифр

E_VP

Встречаемость

1

Производство электроэнергии, млн. кВт в час/чел.

E_PE

1

Внесение минеральных удобрений, кг/га

C_MU

1

Сброс загрязненных сточных вод, куб. м/чел.

Z_SV

2

Удельный вес проб, не отвечающих гигиеническим норм

по санитарно-токсикологическим показателям

ативам

Z_KP

1

Суммарные выбросы в атмосферу загрязняющих веществ, т

/чел. Z_VA

1

Выбросы в атмосферу от автомобильного транспорта, т/чел

. Z_AA

6

Образование токсичных отходов, т/чел.

Z_TO

1

Представленная форма многорядного представления моделей МГУА, где в каждом слое локализуются достаточно простые функции (полиномы не более 2 порядка от двух переменных), но зато общая целостная модель представляет чрезвычайно сложную конст — рукцию, содержит много общего с моделями искусственных нейронных сетей.

Основу нейронных сетей также составляют относительно простые элементы (ячей-ки), имитирующие, по замыслу авторов, работу нейронов мозга. На вход каждого нейрона

– см. рис. 19 – подается группа из n сигналов (синапсов), которые преобразуются по задан-ному алгоритму в выходной сигнал (аксон).

Рис. 19. Схема работы нейрона

Алгоритм преобразования сигналов в нейроне достаточно прост:

n

Y = f (å xi × wi — T ) ,

i =1

где T — постоянная (порог нейрона); wi — настраиваемые коэффициенты при входных сигна — лах (веса синапсов) , f — функция активации, которая имеет вид несложного математическо — го выражения (линейного, сигмоидального, логарифмического, степенного и т. д.), выби — раемого в зависимости от характера решаемых задач.

Нейроны организуются в слои – рис. 20. Входной слой служит для ввода значений переменных. Каждый следующий слой связывается с предыдущим. Выходной слой отве — чает за работу всей нейронной сети. Выбор конкретной архитектуры сети (числа слоев и

количества нейронов в каждом из них) также зависит от поставленной задачи. Наиболее популярны многослойные персептроны (MLP — Multy Layer Perceptron) или нейронные се — ти прямого распространения, которые и являются основным предметом нашего рассмот — рения.

Входные сигналы X1 — Xn

. . .

. . . . . .

. . .

. . . . . .

.

.

.

. . .

Выходные сигналы

. . . . . .

Распределительнй слой Промежуточные слои Слой k

Рис. 20. Слоистая сеть

Выходные сигналы в нейронной сети комбинируют друг с другом по правилам су — перпозиции, т. е. для каждого узла при движении от входа сети к ее выходу последователь — но выполняется преобразование линейных комбинаций входов в соответствии видом при — нятой функции активации. Результирующее значение функции отклика снимается с вы — ходного слоя.

Представляет интерес выделить основные сходные черты и отличия методов само-организации (МГУА) и нейросетевого моделирования:

· теоретическое обоснование обоих методов базируется на теореме Колмогорова, дока — завшего, что любую непрерывную многомерную функцию можно представить в виде конечного числа простых одномерных функций [738];

· в соответствии с "коннекционистской" парадигмой и тут и там модель реализуется в виде многорядной структуры персептрона, конечное решение которого доставляется с последнего слоя;

· в обоих случаях, как средство профилактики от "переобучения" используется внешнее дополнение в виде проверочной выборки;

· если в МГУА входом в каждый узел является два и только два сигнала, приводящих к локально наилучшему результату, то в нейрокомпьютинге входами являются все аксо — ны предыдущего слоя, степень активности которых регулируется значениями весов wi;

· в качестве функции активации нейронов модно использование сигмоидной функции

s(a ) = 1/(1 + e ca ) , когда как в МГУА в моде уравнение параболоида;

· МГУА автоматически воспроизводит схему массовой селекции, которая аналогична задаче нахождения пеpцептpона оптимальной структуры, в то время как архитектура тестируемой сети, как правило, заранее задается исследователем (впрочем, есть работы по методам многослойной самоорганизации нейронных сетей оптимальной сложности [3065]);

· если в МГУА реализовано последовательное обучение, оптимальное только с точки зрения данного конкретного шага, то настройка параметров нейронной сети происхо — дит в ходе итеративной процедуры, минимизирующей совокупную ошибку всей сети целиком;

· нейрокомпьютинг перегружен чисто "анатомической" лексикой, проводящей сомни — тельную по сути и рекламную по характеру аналогию с работой человеческого мозга, чего счастливо избежал МГУА.

Расширенные концепции нейросетевого моделирования, описание архитектуры и особенностей различных типов сетей, алгоритмы обучения и прочие важные темы для об — суждения читатель может найти на многочисленных сайтах Интернет, что дает нам воз — можность прекратить дальнейшие теоретические упражнения.

Интеллектуальным расширением ЭИС REGION в области использования эволюци-онных алгоритмов и методов нейросетевого моделирования является информационный интерфейс с универсальной программой нейросетевого анализа STATISTICA Neural Networks [1870]. Это дает возможность эффективно решать задачи регрессии с помощью сетей различных типов: многослойного персептрона, линейной сети, радиальной базисной функции и обобщенной регрессионной сети.

Выполним теперь анализ связи между уровнем заболеваемости и прочими фактора-ми с использованием искусственных нейронных сетей. Особенностью нейросетевого мо — делирования является разделение исходной матрицы данных на две части: обучающую выборку и проверочную последовательность. Проведем тестирование с помощью инстру — мента Network Advisor 40 возможных сетей-претендентов и найдем версию сети с наилуч — шей конфигурацией — трехслойный персептрон с 6 нейронами в промежуточном слое и сигмоидной функцией активации (см. рис. 21), обеспечивающую минимальную ошибку предсказания на проверочной последовательности, включающей 7 векторов из 24. Точ — ность аппроксимации данных с помощью нейронной сети существенно превосходит ре- зультаты, полученные регрессионными моделями: для обучающей выборки r = 0.987, s =

0.049, для проверочной последовательности r = 0.85, s = 0.106.

Рис. 21. Вид трехслойного персептрона, реализующего прогнозирование уровня заболеваемости от 11 эколого-экономических показателей

Пошаговые процедуры Лиепы и Эфроимсона, формирующие набор информативных признаков, не всегда приводят к результату, достаточно близкому к оптимальному. Эф — фективный автоматизированный подход к выбору значимых входных переменных реали — зуется с использованием генетического алгоритма, который можно считать "интеллекту — альной" формой метода проб и ошибок. Генетический алгоритм [2474, 526], позаимство — ванный у природных аналогов, является наиболее ярким представителем эволюционных методов и представляет собой мощное поисковое средство, основанное на трех компонен — тах:

· генетической памяти, сконцентрированной в "хромосомах";

· воспроизведения, осуществляемого при помощи операторов кроссинговера и мута-ции;

· селекции продуктивных решений методами оптимизации многоэкстремальных функций.

На рассматриваемом примере процесс эволюции продолжали на протяжении 100

поколений, т. е. цикл "отбор–порождение–оценка" был повторен 100 раз и при этом в поис — ках оптимального набора генов было построено и оценено 10000 версий нейросетевых мо — делей. В соответствии с найденным субоптимальным решением были выделены три наи — более значимых исходных показателя: затраты на природоохранные мероприятия (E_ZP), внесение пестицидов (C_SP) и сброс загрязненных сточных вод (Z_SV), список которых далеко не совпадает с наборами, полученными секвенциальными методами. Наилучшая сеть — трехслойный персептрон, ограниченный тремя входами (см. рис. 22), также показал вполне удовлетворительные результаты на проверочной последовательности: r = 0.81, s =

 

0.085, что свидетельствует о хороших экстраполяционных свойствах модели.

Рис.22. Трехслойный персептрон с тремя входами, реализующий прогнозирование уровня заболеваемости от набора наиболее информативных показателей

7. Примеры синтетического картографирования Волжского бассейна

Территория Волжского бассейна – это 1360 тыс. км2 (62,2% европейской части Рос — сии или почти 13% территории всей Европы), которые объединяют 40 административных единиц (областей и автономий); две из них – в Казахстане, остальные – в России. В ЭИС REGION представлены 24 административные единицы России, которые охватывают более чем 90% всей территории Волжского бассейна. В своем движении от истоков к устью крупнейшая река Европы пересекает лесную (до гг. Нижний Новгород и Казань), лесо — степную (гг. Самара и Саратов), степную (до г. Волгограда) и полупустынную зоны. Про — мышленность и сельское хозяйство в Волжском бассейне дают почти третью часть всей продукции России и, соответственно, пропорционально этому велика антропогенная на — грузка на регион. Все это делает регион Волжского бассейна одним из наиболее напря- женных по экологической обстановке [2278, 1366, 1844].

В рамках эколого-информационной системы REGION изучаемая территория разби-та на 210 участков, по которым в базе данных было оцифровано более 500 показателей. Комплексный анализ имеющейся информации с помощью модулей экспертной системы позволяет оценить экологическое состояние Волжского бассейна по эколого — экономическим и социальным показателям.

Обобщенная оценка экологического состояния

Экологическое состояние природных экосистем Волжского бассейна в настоящее время характеризуется активным изменением структурно-функционального облика. На рис. 23 представлена картограмма обобщенного показателя оценки экологического со — стояния территории.

Для построения этой обобщенной оценки было использовано 13 частных показате-лей, перечень и пространственное распределение которых представлены ниже.

1-2. Лесистость (%) и лесовосстановление (га/км2) – поскольку известно, что важ — ное значение для создания благоприятных экологических условий играют леса, наличие которых и их восстановление является приоритетной задачей на национальном и мировом уровне. Санитарно-гигиенические функции леса проявляются в улучшении микроклимата, оздоровлении воздуха, шумопоглощении и пр.

3. Доля заповедных площадей к общей площади территории. Создана сеть особо ох — раняемых природных территорий для предотвращения деградации, восстановления и со — хранения уникальных природных комплексов, флоры, фауны Волжского бассейна.

4. Плотность населения, чел./км2. Демографический фактор (численность и плот — ность населения), распределение его по территории региона прямо воздействует на экоси — стемы, по нему можно судить и о степени промышленной и сельскохозяйственной нагру — зок и связанных с ними уровнях загрязнения (атмосферы, воды, почвы).

5. Оценка загрязнения воздушного бассейна, включающая три других показателя: оценка метеофакторов накопления загрязнений, загрязнение атмосферы от стационар — ных источников (т/чел.) и загрязнение атмосферы автотранспортом (т/чел.).

Загрязнение атмосферы является наиболее опасным по своим последствиям, по-скольку загрязнение некоторыми соединениями приобрело глобальный характер и может повлечь за собой изменения в биосфере в целом. Значительное ухудшение качества водной среды, почвы имеет вторичный характер — оно происходит при осаждении, вымывании поллютантов из атмосферы. Опасность загрязнения атмосферы повышается и в результате большей чувствительности к ним организмов. Объем необходимого для дыхания воздуха не сравним с необходимым для жизни количеством воды, пищи.

Различные производства оказываются не в равной степени опасными для человека. Наиболее неблагоприятные условия создаются в городах с развитой черной и цветной ме — таллургией, нефтеперерабатывающей промышленностью, производством удобрений и за — частую скрывающимися под ними химическими предприятиями военного комплекса. Су — щественное ухудшение экологической обстановки вызывает неблагоприятные сочетания производств, например химические производства с выбросами, однонаправленного дейст — вия на организм, нередко сопровождающимися эффектами синергизма и потенцирования.

Автомобильный транспорт – наиболее экологически неблагополучный в силу его

многочисленности и рассредоточения. Основное его воздействие — загрязнение атмосферы и почвы. Загрязнение воздуха автотранспортом нередко превышает половину загрязнения от всех стационарных источников. Можно считать автомобильный транспорт наиболее существенным фактором загрязнения в городах, в значительной степени определяющим загрязнение всех сред и влияющим на здоровье человека.

Влияние загрязнения атмосферы на здоровье населения зависит от характера и ин-тенсивности загрязнения и условий циркуляции воздуха. Практически все известные слу — чаи массового поражения людей возникают при штилевой погоде, особенно в сочетании и температурной инверсией и повышенной влажностью воздуха вызванных этим фактором последствий. Оценка метеофакторов накопления загрязнений включает количество осад — ков, число дней с туманами, повторяемость штилей.

3. Доля заповедных площадей к общей площади территории. Создана сеть особо ох — раняемых природных территорий для предотвращения деградации, восстановления и со — хранения уникальных природных комплексов, флоры, фауны Волжского бассейна.

4. Плотность населения, чел./км2. Демографический фактор (численность и плот — ность населения), распределение его по территории региона прямо воздействует на экоси — стемы, по нему можно судить и о степени промышленной и сельскохозяйственной нагру — зок и связанных с ними уровнях загрязнения (атмосферы, воды, почвы).

5. Оценка загрязнения воздушного бассейна, включающая три других показателя: оценка метеофакторов накопления загрязнений, загрязнение атмосферы от стационар — ных источников (т/чел.) и загрязнение атмосферы автотранспортом (т/чел.).

Загрязнение атмосферы является наиболее опасным по своим последствиям, по-скольку загрязнение некоторыми соединениями приобрело глобальный характер и может повлечь за собой изменения в биосфере в целом. Значительное ухудшение качества водной среды, почвы имеет вторичный характер — оно происходит при осаждении, вымывании поллютантов из атмосферы. Опасность загрязнения атмосферы повышается и в результате большей чувствительности к ним организмов. Объем необходимого для дыхания воздуха не сравним с необходимым для жизни количеством воды, пищи.

Различные производства оказываются не в равной степени опасными для человека. Наиболее неблагоприятные условия создаются в городах с развитой черной и цветной ме — таллургией, нефтеперерабатывающей промышленностью, производством удобрений и за — частую скрывающимися под ними химическими предприятиями военного комплекса. Су — щественное ухудшение экологической обстановки вызывает неблагоприятные сочетания производств, например химические производства с выбросами, однонаправленного дейст — вия на организм, нередко сопровождающимися эффектами синергизма и потенцирования.

Автомобильный транспорт – наиболее экологически неблагополучный в силу его

многочисленности и рассредоточения. Основное его воздействие — загрязнение атмосферы и почвы. Загрязнение воздуха автотранспортом нередко превышает половину загрязнения от всех стационарных источников. Можно считать автомобильный транспорт наиболее существенным фактором загрязнения в городах, в значительной степени определяющим загрязнение всех сред и влияющим на здоровье человека.

Влияние загрязнения атмосферы на здоровье населения зависит от характера и ин-тенсивности загрязнения и условий циркуляции воздуха. Практически все известные слу — чаи массового поражения людей возникают при штилевой погоде, особенно в сочетании и температурной инверсией и повышенной влажностью воздуха вызванных этим фактором последствий. Оценка метеофакторов накопления загрязнений включает количество осад — ков, число дней с туманами, повторяемость штилей.

8. Образование токсичных отходов (т/чел.).

9. Оценка затрат на охрану природы, включает следующие показатели: затраты предприятий на охрану водных ресурсов (без капитальных вложений); капитальные вло — жения на охрану земель, затраты предприятий на охрану и рекультивацию земель (без ка — питальных вложений); капитальные вложения на охрану воздуха; использование капи — тальных вложений на охрану окружающей среды.

Загрязнение окружающей среды и снижение качества конечной продукции (с точки зрения ее экологической чистоты и безопасности) ведет и к росту затрат на преодоление негативных последствий этих процессов. В результате все большая доля совокупного об — щественного труда тратится на обезвреживание отходов, очистку сточных вод, восстанов — ление нарушенных природных ресурсов. Расширяются границы сферы общественного производства за счет появления новых видов природоохранной деятельности, очистных производств и т. д. При этом относительная величина природоохранных затрат может сильно меняться в зависимости от реализуемого этапа эколого-экономической стратегии развития национальной экономики и от преимущественно применяемых методов регули — рования охраны среды. Оптимальный на сегодняшний день объем экологических затрат для стабилизации и улучшения экологической обстановки в странах с развитой рыночной экономикой оценивается примерно в 3-4% валового национального продукта.

10. Оценка заболеваемости населения включает 5 показателей: общая заболевае — мость на 1000 чел.; болезни органов пищеварения на 1000 чел.; болезни органов дыхания на 1000 чел.; инфекционные и паразитарные заболевания на 1000 чел.; новообразования на

1000 чел.

Заболеваемость населения выступает как один из многих биоиндикаторов, характе-ризующих экологическое состояние территории и является интегральным показателем ка-чества среды [3074, 1365, 2176] отражает суммарный эффект влияния нескольких факто-

ров в их взаимодействии, включающим синергизм (взаимное усиление), антагонизм (ос-лабление, нейтрализация), кумуляцию (накопление во времени).

11. Для построения комплексного показателя антропогенной нагрузки на террито — рию Волжского бассейна (алгоритм "Комплекс") были использованы следующие показате — ли: обобщенный показатель загрязнение атмосферы, обобщенный показатель воздействия на водные ресурсы, обобщенная с/х нагрузка. Обобщенный показатель загрязнения атмо — сферы учитывает загрязнение от стационарных источников по различным составляющим и загрязнение от автомобильного транспорта. Обобщенная характеристика использования водных ресурсов включает в себя 23 параметра (объемы водопотребления и водоотведе- ния, объемы выбрасываемых загрязняющих веществ по отдельным ингредиентам, строи — тельство очистных сооружений, вложение средств в охрану водных ресурсов). Обобщен — ная с/х нагрузка – см. выше.

12-13. Распределение видов наземных позвоночных по территории Волжского ре — гиона неравномерно, что связано с большой площадью региона и его значительной протя — женностью с севера на юг и, в меньшей степени, с запада на восток и связанных с этим из — менений температуры и влажности. В целом, разнообразие видов млекопитающих увели — чиваясь с севера на юг, доходит до своего максимума в центральных районах Волжского бассейна и далее на юг вновь уменьшается. Такая же закономерность характерна и для разнообразия земноводных. Разнообразие пресмыкающихся демонстрирует четкое увели — чение с севера на юг. На севере лимитирующим фактором распространения наземных по — звоночных являются низкие температуры. Особенно это проявляется на земноводных и пресмыкающихся.

Очень краткое заключение

Рассмотренная методология построения синтетических ЭВМ-карт и разработанная для этих целей ЭИС VOLGABAS демонстрируют высокое качество комплексного анализа социо-эколго-экономических систем территорий разного масштаба – Волжский бассейн [2278], Самарская область [3069, 1339], Ульяновская область [2280], Республика Татарстан [2279] и пр.

 

Лесистость, %

1 – до 25,4%; 2 – от 25,4 до 48,9%;

3 – от 48,9 до 72,4%.

Лесовосстановление в 2001 г., га/км2

 

1 – от 0,01 до 0,064; 2 – от 0,064 до 0,118;

3 – от 0,118 до 0,171; 4 – от 0,171 до 0,225

1 2

 

Доля заповедных площадей,

баллы

Плотность населения, чел./км2

1 – от 10 до 20; 2 – от 20 до 40;

3 – от 40 до 70; 4 – выше 70

3 4

 

Оценка метеофакторов накопления загрязнений

1 – низкое; 4 – высокое

Загрязнение атмосферы от стационарных источников, баллы

1 – низкое; 2 – среднее; 3 – высокое

5.1 5.2

 

Загрязнение атмосферы от автотранспорта, баллы

1 – низкое; 2 – среднее; 3- высокое.

Оценка загрязнения воздушного бассейна,

1 – низкое; 4 – высокое загрязнение.

5.3 5

 

Обеспеченность водными ресурсами, баллы

1 – низкая; 2 – средняя; 3 – высокая.

Забрано воды из природных источников, баллы.

6.1 6.2

 

Оценка по использованию водных ресурсов, баллы

1 – наилучшая; 4 – наихудшая.

Обобщенная сельскохозяйственная нагрузка, баллы.

6 7

 

Образование токсичных отходов, т/чел.

1 – от 0 до 0,55; 2 – от 0,55 до 1,1; 3 – более 1,1. Оценка затрат на охрану природы

1 – высокая; 2 – средняя; 3 – низкая.

8 9

 

Оценка заболеваемости населения

1 – наилучшая; 4 – наихудшая.

Антропогенная нагрузка, баллы

1 – низкая; 5 – высокая.

10 11

 

Разнообразие земноводных. Разнообразие пресмыкающихся.

12 13

Материал взят из: Количественные методы экологии и гидробиологии (сборник научных трудов, посвященный памяти А. И. Баканова)