Формирование знаний методами локальной геометрии: разработка экспертной системы для диагностики острого аппендицита

Общие положения геометрического подхода, изложенные в предыдущей статье [1], как там отмечалось, могут иметь различные воплощения. Ниже будет рассмотрен один из вариантов, хорошо зарекомендовавший себя на практике. Прежде всего, остановимся на некоторых свойствах локального пространства. Это пространство образуется путем перехода к новой векторной переменной, например,

, где xi- выбранный объект (в дальнейшем он будет называться центральным объектом).

Свойство 1. Центральный объект располагается в начале координат локального пространства.

Свойство 2. Любая линейная функция в локальном пространстве с неотрицательными коэффициентами имеет смысл взвешенного расстояния (в нашем случае взвешенного расстояния Хэмминга) от центрального объекта.

Свойство 3.

Если для некоторого подмножества объектов выполняется условие

, где W- весовой вектор, то на этом подмножестве истинно следующее логическое высказывание

где

- индексы при ненулевых компонентах весового вектора.

Отмеченными свойствами определяются особенности технологии нахождения логических закономерностей в локальном пространстве. Она заключается в комбинированном применении методов линейной алгебры и интерактивной графики. С одной стороны, алгебраическими методами ищется новая ось в локальном пространстве (весовой вектор), на которой распределение проекций объектов удовлетворяет заданному критерию (например, выражающему стремление сгруппировать около нулевой отметки объекты того же класса, что и у центрального объекта ).

С другой стороны, так как интерес представляет только сравнительно небольшая область около нулевой отметки новой оси, удаленные от данной отметки объекты подвергаются исключению с использованием средств интерактивной графики. После каждого такого исключения параметры новой оси перерассчитываются и визуальный анализ полученного распределения дает основание для произведения еще одного акта исключения объектов, либо для останова процедуры поиска логической закономерности.

Для осуществления указанных операций можно воспользоваться математическими и графическими средствами, уже имеющимися в известных пакетах для анализа данных, в частности в STATGRAPHICS Plus for Windows. Единственное, что целесообразно дополнительно сделать, это передать операцию центрирования данных для перехода в локальное пространство какой-либо электронной таблице (например, Excel), обладающей более развитыми возможностями манипулирования данными.

В качестве математической процедуры построения новой координатной оси в локальном пространстве может быть применен инструментарий множественной регрессии, которая в STATGRAPHICS осуществляется по методу наименьших квадратов. Для этого к объектам "привязывается" зависимая переменная (например, class), принимающая значение "0" у объектов одинакового класса и значение "1" у всех объектов альтернативных классов.

Существенным дополнением, способствующим в дальнейшем более "плавной" сходимости процедуры интерактивного визуального поиска логических закономерностей, служит введение в альтернативные классы "шумящих" объектов, равномерно распределенных в исходном пространстве признаков.

Это важно, с одной стороны, для уменьшения эффекта мультиколинеарности признаков, который нередко встречается при исследовании феноменов со сложной системной организацией. И с другой - шумящий класс представляет собой множество фальсификаторов, "столкновение" с которыми способствует лучшему проявлению устойчивых логических закономерностей в данных.

Как показывает опыт, доля "шума" может соответствовать или даже быть несколько больше доли исходной информации. Демонстрацию возможностей методов локальной геометрии произведем на примере данных по диагностике острого аппендицита, которые приведены в [2].

Многие люди либо на собственном опыте, либо на случаях с родными и близкими воочию убедились как бывает важно и, вместе с тем, непросто установить точный диагноз острого аппендицита. Это достаточно тонкая проблема, нередко требующая привлечения знаний и умений врача самой высокой квалификации.

В качестве исходной информации использовались данные клиники, в которых зарегистрированы результаты обследования 103 человек с установленным диагнозом:

  • группа 1 - гангренозный аппендицит (28 наблюдений),
  • группа 2 - флегмонозный аппендицит (25 наблюдений),
  • группа 3 - катаральный аппендицит (26 наблюдений) и
  • группа 4 - неподтвержденный диагноз (24 наблюдения).
  • Исходными признаками служили 8 симптомов, охарактеризованных в таблице. Прежде всего, преобразуем исходные признаки х1-х8 в новые бинарные признаки по следующим правилам.

    Значения новых признаков, с которыми в дальнейшем придется иметь дело при интерпретации правил постановки диагноза расшифровываются следующим образом:

    Рассмотрим процесс поиска одной из логических закономерностей для диагностического класса "гангренозный аппендицит" (объекты 1 - 28).

    Введем переменную class и сгенерируем значения 0 в классе гангренозного аппендицита и значения 1 для всех остальных объектов, включая "шум".

    Так как очевидно, что не для всех объектов рассматриваемого класса потребуется осуществлять поиск локальных метрик, целесообразно каким-то образом предварительно определить наиболее перспективные объекты.

    По-видимому, эти объекты должны быть удаленными друг от друга (уменьшение вероятности дублирования процедуры) и вместе с тем достаточно равномерно рассеяны по всем областям многомерного распределения класса в исходном пространстве признаков.

    Рис.1. Проекции объектов класса "гангренозный аппендицит" на плоскость первых двух главных компонент

    На рис.1 показан предварительный набросок плана исследования по результатам отображения объектов диагностического класса "гангренозный аппендицит" на плоскость первых двух главных компонент. На приведенном рисунке номера проставлены у тех объектов, исследование которых представляется первоочередным.

    Конкретно же, начнем такое исследование с наиболее удаленного от общей массы объекта №4. Произведем центрирование данных относительно выбранного объекта 4. Теперь все готово для поиска логической закономерности посредством совокупного применения математических методов анализа и средств интерактивной графики.

    Посредством процедуры множественной регрессии по методу наименьших квадратов будут рассчитываться параметры новой координатной оси в локальном пространстве, максимально коррелирующей с зависимой переменной class, а средствами интерактивной графики из анализа будут исключаться наиболее удаленные от нулевой отметки новой оси объекты, так как для анализа интерес представляет только сравнительно небольшая окрестность центрального объекта.

    Для лучшей обозримости всего проведенного процесса поиска логической закономерности приводится сводная таблица.(Сводка процедуры поиска логической закономерности средствами интерактивной графики занмает слишком много места и поэтому в данном тексте опущена. Желающие могут ознакомиться с ней в самом журнале).

    Как следует из сводной таблицы, найдено логическое высказывание, которое принимает значение "истина" в 13 случаях из 28 для класса "гангренозный аппендицит" и 1 раз неправильно дает такое же значение для объекта из класса "флегмонозный аппендицит".

    Вербально это высказывание звучит следующим образом: "если у больного наблюдаются выраженные боли в правой поджелудочной области на протяжении от 0.5 до 2 суток и частота пульса больше 80 уд/мин, то в 13 случаях из 14 данная картина соответствует диагнозу гангренозный аппендицит.

    1 случай из 14 - ошибочное отнесение к классу флегмонозного аппендицита". Таким образом, использование алгебраических методов в совокупности со средствами интерактивной графики, которое стало возможным на основе представлений локальной геометрии, позволило при анализе только одного локального пространства определить симптомокомплекс сразу почти для половины больных с диагнозом "гангренозный аппендицит".

    Аналогичным образом ищутся остальные логические закономерности (симптомокомплексы) для рассмотренного и других диагностических классов. Основанием для выбора последующих центральных объектов (локальных пространств) служат, с одной стороны, сведения ранее намеченных планов.

    С другой стороны, планы могут корректироваться с учетом обстоятельств текущего анализа - в него могут дополнительно включаться объекты, наиболее удаленные от уже рассмотренных центральных объектов или, наоборот, исключаться объекты, попавшие по тем или иным причинам в сферу действия найденных симптомокомплексов. Ниже приводится результирующая таблица построенных логических правил диагностики острого аппендицита с оценками их эффективности.

    Дальнейший анализ совокупного взаимодействия логических правил показал, что для отдельных объектов могут одновременно "срабатывать" два и более правил, в том числе и из разных диагностических классов. В этом случае возникает ситуация спора, который разрешается элементарным образом - предпочтение отдается решающему правилу, обладающему наивысшим приоритетом (эффективностью, см. таблицу).

    При такой организации процесса принятия решения ошибки диагностики острого аппендицита характеризуются следующими цифрами:

  • Неподтвержденный диагноз - 0% ошибок;
  • Гангренозный аппендицит - 0% ошибок;
  • Флегмонозный аппендицит - 20% ошибочного отнесения к катаральному аппендициту и 12% спорных случаев с катаральным аппендицитом;
  • Катаральный аппендицит - 7.7% ошибочного отнесения к флегмонозному и 7.7% ошибочного отнесения к гангренозному аппендициту.
  • Таким образом, полученная система диагностических правил (база знаний) демонстрирует значительно лучшие результаты, чем те, которые были ранее описаны в [2], основанные на применении дискриминантного анализа (ДА). Сравнительные данные по двум подходам к решению одной и той же задачи на одних и тех же исходных данных показаны на рис.2.

    Рис.2. Сравнительные ошибки классического дискриминантного анализа и системы правил, полученных методами локальной геометрии

    Кроме очевидных преимуществ методов локальной геометрии, существуют другие дополнительные возможности, позволяющие говорить не только о формировании знаний, но и о концептуальном анализе знаний, который, как известно включает в себя определение метапонятий предметной области и установление взаимосвязей между ними.

    В рассматриваемом случае концептуальный анализ заключался в нахождении иерархических группировок выделенных логических правил. Для этого сначала вводились новые переменные Р1 - Р102, соответствующие каждому из 29 правил.

    Они выражают расстояния от центральных объектов в их собственных локальных метриках до всех остальных объектов изучаемой выборки. Затем осуществлялся кластерный анализ указанных переменных с помощью того или иного алгоритма иерархической кластеризации и выяснялось, что общего и что разного у полученных кластеров (см. представление о метриках, данное в [1]). Ниже приводится фрагмент метаструктуры диагностических правил для класса гангренозного аппендицита.

    Рис.3. Метаструктура диагноза гангренозного аппендицита

    Из приведенного рисунка, что в структуре диагноза гангренозного аппендицита можно выделить три основных группы диагностических правил.

    Для первой характерно сочетание выраженных болей (х1=2) с концентрацией лейкоцитов от 8 до 14 тыс. (х4=2) и выраженным защитным мышечным напряжением.

    Вторая группа имеет общий симптомокомплекс - продолжительность болей от 13 до 48 часов (х2=2,3)и частота пульса выше 80 уд/мин (х3=2,3).

    И, наконец, правила третьей группы объединяет симптомокомплекс: продолжительность болей от 13 до 48 часов (х2=2,3) в сочетании с лейкоцитами крови свыше 14 тыс.

    В целом, резюмируя вышесказанное, следует отметить такие достоинства методов локальной геометрии в решении задач формирования знаний:

  • минимальные ошибки;
  • диагноз индивидуален для каждого случая;
  • дается интерпретация результатов;
  • выявляется метаструктура правил диагностики;
  • отсутствует перебор вариантов;
  • высокая оперативность построения базы знаний.
  • По поводу последнего пункта об оперативности скажем, что на поиск одной логической закономерности (одного симптомокомплекса) при решении задачи диагностики острого аппендицита в среднем затрачивалось от 10 до 15 минут ненапряженной, в чем-то элегантной работы.

    А на всю работу по созданию базы знаний диагностической системы, связанную также с анализом совокупного взаимодействия диагностических правил и выявлением их метаструктуы, ушло примерно 5 рабочих дней. Это, конечно, не та скорость, с которой были получены результаты классического дискриминантного анализа (приблизительно 1 час), но конечный результат, как говорится, налицо.

    Литература

    1. Дюк В.А. Формирование знаний в системах искусственного интеллекта: геометрический подход// Вестник Академии Технического Творчества. - СП б, 1996, №2. - с.46-67.
    2. Григорьев С.Г., Левандовский В.В., Перфилов А.М., Юнкеров В.И. Пакет прикладных программ STATGRAPHICS на персональном компьютере (практическое пособие по обработке результатов медико-биологических исследований). - СП б., 1992. -104 с.