Гнатюк В.И. Закон оптимального построения техноценозов, 2005 – главная страница

Адрес монографии в сети – http://gnatukvi.ru/ind.html

 

 

 

 

5.4.3. Классификация объектов техноценоза

по электропотреблению

 

 

Подготовка данных. Определение оптимального количества элементов в кортеже. Функционал качества классификации. Оптимизация классификационных параметров. Классификация техноценоза. Визуализация классов.

 

 

В ряде процедур рангового анализа (нормирование, ASR-анализ и др.) применяется предварительная процедура классификации объектов техноценоза по электропотреблению [20]. Однако использование здесь стандартных процедур кластер-анализа, как правило, наталкивается на трудности, связанные с негауссовостью техноценозов и, как следствие, существенной нечеткостью границ между кластерами (п. 5.2.3) [1]. Подобные трудности в значительной степени снимаются применением классификации, моделирующей известный принцип «Решета Эратосфена» [1].

Данный метод классификации основан на идее формирования кортежа наиболее похожих объектов. Степень похожести определяется мерой близости объектов в параметрическом пространстве (в данном случае рассматривается пространство в координатах «ранг объекта – время – электропотребление, кВт·ч»). Для каждого объекта техноценоза формируется и ставится в соответствие кортеж наиболее близких к нему объектов. После этого осуществляется сортировка кортежей, при этом на первое место ставится кортеж, разброс объектов (внутриклассовая дисперсия [1]) внутри которого относительно его центра минимален. Далее производится процедура формирования классов. В качестве первого класса принимается кортеж с минимальной дисперсией, после чего объекты, попавшие в него, из дальнейшего анализа и классификации исключаются. В качестве второго класса принимается кортеж, не исключенный из процедуры классификации в ходе предыдущего шага и имеющий минимальную дисперсию (в состав класса включаются только объекты, не расклассифицированные на предыдущем шаге). Описанные процедуры продолжаются до тех пор, пока вся выборка объектов не будет расклассифицирована. В качестве функционала, определяющего качество классификации, выбирается отношение суммы параметров, характеризующих межклассовый разброс и суммарную дисперсию классов, к сумме количества элементов в кортеже и числа классов. Оптимальным считается разбиение, при котором описанный выше функционал принимает максимальное значение [1].

Рассмотрим пример. После сбора информации о годовом электропотреблении (кВт·ч) создается электронная база данных. Рекомендуется базу данных формировать в виде файла Microsoft Excel, в котором должны содержаться только числовые значения, при этом столбцы должны соответствовать объектам техноценоза, а строки – годам. Перед началом обработки данные необходимо подвергнуть верификации (см. пп. 5.1.2, 5.4.1) и сохранить под именем «data_d.xls» в директории «c:\mathcad_dat», которая должна быть заблаговременно создана в корневом каталоге диска «c:\». Далее, уже программными средствами, осуществляется импорт данных из файла «data_d.xls» в тело mathcad-программы. В настоящем примере используются десятилетние данные по электропотреблению реально существующего в Калининградской области техноценоза, состоящего из рассредоточенных по территории региона 69 объектов (подробно – см. п. 4.5, а также по адресу: http://gnatukvi.ru/zip_files/task_mcd.zip).

 

 

Подготовка данных

 

 

 

 

 

 

W

 

 

 

Сформируем ранговое параметрическое распределение по медианным значениям электропотребления объектов.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение оптимального количества

элементов в кортеже

 

Ниже описаны модули, которые затем будут использоваться в подпрограмме, предназначенной для нахождения оптимального количества элементов в кортеже [1,23].

 

Модуль для вычисления центра классов.

 

 

 

 

Модуль для вычисления внутриклассовой дисперсии.

 

 

 

Модуль для определения матрицы, предназначенной для фиксации попарных расстояний между объектами.

 

 

 

Модуль для выявления и фиксации кодов наиболее близких элементов (формальные параметры: a – матрица попарных расстояний, b – вектор кодов объектов, c – количество элементов в кортеже).

 

 

 

Модуль для составления кортежей элементов по найденным кодам (формальные параметры: a – вектор с координатами объектов, b – матрица кодов элементов кортежа).

 

 

Модуль для вычисления дисперсии и сортировки кортежей в порядке возрастания внутриклассовой дисперсии (формальные параметры: a – вектор, элемент которого есть кортеж с координатами объектов техноценоза, b – вектор кодов). На выходе модуля получаем упорядоченный вектор, элементом которого является код объекта (на первом месте стоит объект, кортеж которого имеет минимальную внутриклассовую дисперсию).

 

 

 

 

Модуль, исключающий из выборки объекты после попадания их в один из классов (формальные параметры: b – вектор кодов объектов, «населяющих» кортеж, a – вектор, элемент которого представляет собой код первого объекта кортежа). На выходе модуля получаем вектор «a», из которого исключены коды объектов, попавших в кортеж «b».

Необходимо учитывать следующую особенность настоящего алгоритма [1]. Классификация, проводимая с помощью рассматриваемых модулей, в общем случае приводит к покрытию классами, а не разбиению, т.к. таксоны могут пересекаться. Это связано с тем, что хотя элементы выборки на определенном этапе последовательно исключаются из рассмотрения, тем не менее, они оказывают влияние на последующую классификацию, поскольку на начальном этапе они участвовали в упорядочении выборки, и порядок этот после их исключения не пересматривался. Очевидно, что подобная особенность алгоритма, помимо прочего, позволяет также учесть критерии соответствия Н-распределению [20,28] (прежде всего, взаимосвязанность объектов в техноценозе посредством слабых связей особой природы). Что же касается перемешивания объектов в окончательной классификации, то этого в техноценозах никогда не происходит благодаря присущей параметрической выборке негауссовости [20,28].

 

 

 

Модуль формирования класса объектов техноценоза (формальные параметры: a – матрица, первый столбец которой является вектором кодов объектов, а второй – вектором координат объектов; b – вектор кодов объектов, «населяющих» кортеж).

 

 

 

Подпрограмма для формирования классов (формальные параметры: q – вектор с координатами объектов, K – вектор кодов объектов, w3 – вектор, элемент которого является кодом первого объекта в кортеже (см. модуль SORT), w1 – матрица кортежей, столбцы которой формируются кодами объектов, «населяющих» кортеж).

 

 

 

Модуль для нахождения межклассового разброса.

 

 

 

Модуль для нахождения суммарной внутриклассовой дисперсии.

 

 

 

Подпрограмма для нахождения значений функционала, характеризующего качество классификации в зависимости от количества объектов, формирующих кортеж. На каждом шаге подпрограммы осуществляется классификация множества и, в зависимости от объема кортежа, вычисляется функционал. В качестве функционала, определяющего качество классификации, выбирается отношение суммы параметров, характеризующих межклассовый разброс и суммарную дисперсию классов, к сумме количества элементов в кортеже и числа классов. На выходе подпрограммы получаем матрицу, первый столбец которой составляют значения функционала, второй – значения объема кортежа для осуществления классификации.

 

 

 

Модуль для нахождения по максимальному значению функционала качества разбиения на классы оптимального объема кортежа.

 

 

 

 

 

 

 

 

 

 

 

Модуль визуализации оптимизационного процесса (рис. 5.55).

 

 

Рис. 5.55.

Функционал качества разбиения на классы:

абсцисса – количество элементов в кортеже;

ордината – значение функционала качества

(оптимальное значение обведено окружностью)

 

 

Итак, в рассматриваемом примере оптимальный объем кортежа равен:

 

 

 

 

 

Классификация техноценоза

 

Разобьем исходную совокупность объектов с учетом оптимального количества объектов в кортеже (в данном случае – 9).

 

 

 

 

 

 

 

 

Результирующее количество классов в оптимальном разбиении:

 

 

 

 

Визуализируем классы на ранговом параметрическом распределении в исходных координатах («ранг – электропотребление, кВт·ч») (рис. 5.56).

 

 

 

 

 

 

 

 

 

Рис. 5.56.

Распределение классов техноценоза по электропотреблению

в исходных координатах (фрагмент с 5-го по 10-й классы):

абсцисса – ранг объекта техноценоза;

ордината – электропотребление, кВт·ч;

классы выделены с помощью различных

условных графических обозначений

 

 

Кроме того, любой из классов можно оперативно просмотреть в теле программы. Ниже для примера представлены 1-й, 4-й, 12-й и 14-й классы техноценоза по электропотреблению. Следует иметь в виду, что нумерация классов в разбиении не соответствует нумерации объектов в исходном ранговом параметрическом распределении техноценоза (в основном она обратная, но не везде по порядку).

 

 

 

Таким образом, с помощью предлагаемой программы осуществлена успешная классификация техноценоза по электропотреблению со следующими оптимальными параметрами: общее количество классов – 14, число элементов в кортеже – 9.

 

 

 

 

Рейтинг@Mail.ru

При использовании материалов ссылки обязательны

Все права защищены © Гнатюк В.И., 2005

E-mail: mail@gnatukvi.ru