Гнатюк В.И. Закон оптимального построения техноценозов, 2005 – главная страница

Адрес монографии в сети – http://gnatukvi.ru/ind.html

 

 

 

 

5.1.2. Верификация исходной базы данных

по электропотреблению

 

 

Подготовка данных. Устранение нулевых данных. Устранение явно ошибочных данных (выбросов). Устранение абсолютно равных данных. Восстановление утерянных данных. Визуализация и сохранение верифицированных данных.

 

 

Как показано выше, после сбора информации создается электронная база данных, которая представляет собой неупорядоченную совокупность значений исследуемых параметров особей техноценоза. Повторимся и укажем, что базу данных рекомендуется создавать в виде файла, который должен быть назван «data.xls» и помещен в директорию «c:\mathcad_dat» (должна быть заблаговременно создана в корневом каталоге диска «c:\»).

 

 

Подготовка данных

 

В первую очередь программными средствами осуществляется импорт данных из файла «data.xls» в тело программы Mathcad и задается начало отсчета.

 

V

 

Сформированная матрица V содержит информацию об исследуемом техноценозе. Причем, каждая строка соответствует определенному году, а каждый столбец – объекту. Далее полученную матрицу можно вывести и просмотреть в теле программы.

 

 

Как показывает опыт, далеко не всегда исходные данные, используемые для процедур управления ресурсами техноценоза, оказываются вполне корректными, что значительно снижает достоверность интервального оценивания, прогнозирования и нормирования. Следовательно требуется предварительная верификации базы данных, которая включает следующие процедуры: устранение нулевых данных; устранение явно ошибочных данных (выбросов); устранение абсолютно равных данных; восстановление утерянных данных.

Нулевые и абсолютно равные данные являются первым признаком некорректности базы, что очевидно даже с точки зрения физического смысла. Кроме того, подобные данные очень плохо обрабатываются компьютерными программами. Выбросы в данных являются следствием грубых ошибок при фиксации параметров обслуживающим персоналом либо сбоев в работе технических средств измерений. Наконец, утеря данных может произойти как по вине персонала, так и по причине тяжелых сбоев в работе серверов, на которых хранятся базы. В ряде случаев требуется просто корректное наращивание базы данных на несколько лет «назад». Необходимо отметить, что верификация не является обязательной процедурой, однако она всегда должна применяться в том случае, если есть хотя бы малейшее сомнение в корректности исходных данных. Итак, рассмотрим процедуры верификации на примере имеющейся базы данных по электропотреблению.

 

 

Устранение нулевых данных

 

Нулевые значения, находящиеся внутри базы данных, восстанавливаются при помощи сплайн-интерполяции, а на границе базы данных – применением функции экстраполяции [23]. Устраним нулевые данные внутри базы данных методом сплайн-интерполяции, для чего сначала сформируем вектор времени.

 

 

Входными параметрами следующих подпрограмм являются исходная матрица данных по электропотреблению и вектор времени.

 

 

 

 

Алгоритм подпрограммы имеет существенную особенность: для устранения нулевых данных необходимо, чтобы одно значение до нуля и два после не были равны нулю. При необходимости исследователь может адаптировать алгоритм в зависимости от положения нулевых данных, для чего надо изменить значения элементов векторов X и Y, используемых функцией сплайн-интерполяции «cspline» [23]. Если структура нулевых данных такова, что приведенная выше подпрограмма не работает автоматически для всей базы, можно использовать подпрограмму, приведенную ниже, входным параметром которой является не вся база, а отдельный вектор данных (повекторное восстановление).

 

 

Устраним нулевые данные в начале или конце вектора методом экстраполяции [23].

 

 

 

Устранение явно ошибочных данных (выбросов)

 

Выбросы – это явно нетипичные данные, которые существенно (без корректного объяснения) отклоняются от центра распределения. Подобные данные связаны с грубыми ошибками измерения и обязательно должны подвергаться процедуре верификации [20,23]. Рассмотрим, как это может быть осуществлено средствами Mathcad (визуализацию результатов расчетов осуществим с помощью рис. 5.3).

 

 

 

 

Рис. 5.3.

Временной ряд электропотребления одного из объектов

техноценоза (номер объекта в базе данных – 3):

абсцисса – непрерывное время (годы);

ордината – электропотребление, кВт·ч;

точки без квадратов – выбросы

 

 

Анализируя выбросы, исследователь должен выявить их природу и принять решение, использовать эти значения для дальнейшей работы либо произвести замену сплайн-интерполяцией или экстраполяцией [23]. Ниже приведен пример повекторного восстановления данных. Вычислим индексы векторов, имеющих нулевые данные, а затем извлечем эти вектора из базы.

 

 

 

 

 

 

 

 

 

 

 

Как видно, структура нулевых данных различна, поэтому восстанавливаем вектора по отдельности, а затем производим их замену в базе данных по электропотреблению.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Восстановим нули на границе базы данных по электропотреблению и построим соответствующие графики (рис. 5.4 и 5.5).

 

 

 

Рис. 5.4.

Временной ряд электропотребления одного из объектов

техноценоза (номер объекта в базе данных – 3):

абсцисса – непрерывное время (годы);

ордината – электропотребление, кВт·ч;

точки без квадратов – выбросы;

квадраты без точек – верифицированные данные

 

 

Рис. 5.5.

Временной ряд электропотребления одного из объектов

техноценоза (номер объекта в базе данных – 24):

абсцисса – непрерывное время (годы);

ордината – электропотребление, кВт·ч;

точка без квадрата – выброс;

квадрат без точки – верифицированное значение

 

 

Устранение абсолютно равных данных

 

Равные данные устраняется путем прибавления к исходным данным относительно малых значений случайной величины, сгенерированной по нормальному закону [23].

 

 

 

Восстановление утерянных данных

 

Восстановление утерянной части базы данных может быть осуществлено экстраполяцией по каждому объекту [20]. Прежде всего, исследователь должен в теле программы напрямую задать переменную «int» – количество лет, на которое необходимо восстановить базу данных (в данном случае – 2).

 

 

 

 

 

 

 

 

Визуализация и сохранение верифицированных данных

 

Верифицированную базу данных далее можно просмотреть в теле программы.

 

 

Кроме того, визуализируем результаты, построив верифицированную ранговую поверхность (рис. 5.6) [20,59].

 

 

Рис. 5.6.

Верифицированная трехмерная ранговая поверхность:

абсцисса – ранг объекта;

ордината – непрерывное время (годы);

аппликата – электропотребление, кВт·ч

 

 

В заключение для дальнейшей работы сохраним верифицированную базу данных по электропотреблению в файл «data_dv.xls».

 

 

 

В результате операции верификации в директории «c:\mathcad_dat» оказывается два файла: «data.xls» (исходная база данных) и «data_dv.xls» (верифицированная база данных). Изменение имени файла следует учесть при реализации последующих программ. Если после дополнительного анализа будет принято решение игнорировать результаты верификации, то файл «data_dv.xls» может быть просто уничтожен. Если же процедура верификации будет признана успешной, то исходный файл «data.xls» должен быть уничтожен, а «data_dv.xls» необходимо переименовать в файл «data.xls».

 

 

 

 

Рейтинг@Mail.ru

При использовании материалов ссылки обязательны

Все права защищены © Гнатюк В.И., 2005

E-mail: mail@gnatukvi.ru