Сб. Май 25th, 2024

Интеллектуальный анализ данных — одно из новых направле­ний ИИ. Этот термин является кратким и весьма неточным пере­водом с английского языка терминов Data Mining и Knowledge Discovery in Databases (DM&KDD).

Более точный перевод — «добы­ча данных» и «выявление знаний в базах данных». Появление тех­нологий DM&KDD обусловлено накоплением огромных объемов информации в компьютерных базах данных, которые стало невы­годно хранить и которыми стало трудно пользоваться традицион­ными способами. Последнее обстоятельство связано со стреми­тельным развитием вычислительной техники и программных средств для представления и обработки данных. Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Од­ним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ори­ентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной информации. Оба направления актуальны с практической точки зрения. Второй подход более интересен для специалистов в обла­сти ИИ, так как связан с решением проблемы приобретения но­вых знаний. Следует заметить, что наиболее плодотворным явля­ется сочетание обоих направлений.

Наличие хранилища данных — необходимое условие для ус­пешного проведения всего процесса KDD. Храни­лищем данных называют предметно-ориентированное, интегри­рованное, привязанное ко времени, неизменяемое собрание дан­ных, используемых для поддержки процесса принятия управлен­ческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми облас­тями, которые они описывают, а не в соответствии с приложени­ями, которые их используют.

Такой принцип хранения гаранти­рует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Привязан­ность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами време­ни. Атрибут времени всегда явно присутствует в структурах хра­нилищ данных. Данные, занесенные в хранилище, уже не изме­няются в отличие от оперативных систем, где присутствуют толь­ко последние, постоянно изменяемые версии данных. Для храни­лищ данных характерны операции добавления, а не модифика­ции данных. Современные средства администрирования храни­лищ данных обеспечивают эффективное взаимодействие с про­граммным инструментарием DM и KDD. В качестве примера можно привести разработки компании SAS Institute: SAS Warehouse Administrator и SAS Enterprise Miner.

Рассмотрим простой пример, иллюстрирующий технологии DM&KDD. В базах данных можно хранить большую таблицу зна­чений переменных Х и Y, но если удалось установить зависимость между этими переменными, то без существенных потерь инфор­мации можно значительно сократить объем занимаемой памяти, поместив туда найденную зависимость, например Y=sin(kX). В общем случае зависимости, выявляемые в базах данных, могут быть представлены правилами, гипотезами, моделями нейрон­ных сетей и т.п. Интеллектуальные средства извлечения инфор­мации позволяют почерпнуть из БД более глубокие сведения, чем традиционные системы оперативной обработки транзакций (OLTP- On-Line Transaction Processing) и оперативной аналитиче­ской обработки (OLAP). Выведенные из данных закономер­ности и правила можно применять для описания существующих отношений и закономерностей, а также для принятия решений и прогнозирования их последствий.

Извлечение знаний из БД является одной из разновидностей машинного обучения, специфика которой заключается в том, что реальные БД, как правило, проектируются без учета потребнос­тей извлечения знаний и содержат ошибки.

В технологиях DM&KDD используются различные математи­ческие методы и алгоритмы: классификация, кластеризация, ре­грессия, прогнозирование временных рядов, ассоциация, после­довательность.

Классификация — инструмент обобщения.

Она позволяет пе­рейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объек­тов и являются достаточными для распознавания объектов, при­надлежащих этим совокупностям (классам). Суть процесса фор­мирования понятий заключается в нахождении закономернос­тей, свойственных классам. Для описания объектов используют­ся множества различных признаков (атрибутов). Проблема фор­мирования понятий по признаковым описаниям была сформу­лирована М. М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процеду­рах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифи­цирующего правила для распознавания объектов из новой (экза­менационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в про­цессе повторного обучения.

Кластеризация — это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.

Регрессионный анализ используется в том случае, если отноше­ния между атрибутами объектов в БД выражены количественны­ми оценками. Построенные уравнения регрессии позволяют вы­числять значения зависимых атрибутов по заданным значениям независимых признаков.

Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных ря­дов позволяет прогнозировать значения исследуемых характе­ристик.

Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота по­явления отдельного предмета или группы предметов, выражен­ная в процентах, называется распространенностью. Низкий уро­вень распространенности (менее одной тысячной процента) го­ворит о том, что такая ассоциация не существенна. Ассоциации записываются в виде правил: А=>В, где А — посылка, В — следст­вие. Для определения важности каждого полученного ассоциативного правила необходимо вычислить величину, которую на­зывают доверительность А к В (или взаимосвязь А и В). Довери­тельностьпоказывает, как часто при появлении А появля­ется В, и рассчитывается как— распространенность совместного появления А и В;— распро­страненность А. Например, еслито это значит, что при покупке товара А в каждом пятом случае приобретается и то­вар В. Необходимо отметить, что если  то  В самом деле, покупка компьютера влечет за собой покупку дисков, но покупка дисков не ведет к покупке компьютера. Важной характеристикой ассоциации является мощность, которая рассчитывается по формуле Чем больше мощность, тем сильнее влияние, кото­рое наличие А оказывает на появление В.

Типичным примером применения ассоциации является ана­лиз структуры покупок. Например, при проведении исследова­ния в супермаркете можно установить, что 65% купивших карто­фельные чипсы берут также и «кока-колу», а при наличии скид­ки за такой комплект «колу» приобретают в 85% случаев. Подоб­ные результаты представляют ценность при формировании мар­кетинговых стратегий.

Последовательность — это метод выявления ассоциаций во времени. В данном случае определяются правила, которые опи­сывают последовательное появление определенных групп собы­тий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирова­ния типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.

К интеллектуальным средствам DM&KDD относятся нейрон­ные сети, деревья решений, индуктивные выводы, методы рас­суждения по аналогии, нечеткие логические выводы, генетичес­кие алгоритмы, алгоритмы определения ассоциаций и последо­вательностей, анализ с избирательным действием, логическая ре­грессия, эволюционное программирование, визуализация дан­ных. Иногда перечисленные методы применяются в различных комбинациях.

Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона пред­ставляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характери­стик. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заклю­чается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.

Деревья решений — метод структурирования задачи в виде дре­вовидного графа, вершины которого соответствуют продукцион­ным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает на­глядное представление о системе классифицирующих правил, ес­ли их не очень много. Простые задачи решаются с помощью это­го метода гораздо быстрее, чем с использованием нейронных се­тей. Для сложных проблем и для некоторых типов данных дере­вья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из послед­ствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучаю­щих примеров, в связи с чем классификацию нельзя считать на­дежной. Методы деревьев решений реализованы во многих про­граммных средствах, а именно: С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).

Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипоте­зы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматиче­ской генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез ис­пользуются статистические методы. Примером системы с применением индуктивных выводов является XpertRule Miner, разрабо­танная фирмой Attar Software Ltd. (Великобритания).

Рассуждения на основе аналогичных случаев (Case-based reason­ing — CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип ана­логии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода за­ключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода. Примерами систем, ис­пользующих CBR, являются: KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

Нечеткая логика применяется для обработки данных с размы­тыми значениями истинности, которые могут быть представлены разнообразными лингвистическими пере­менными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктив­ными, абдуктивными) для решения задач классификации и про­гнозирования, например в системе XpertRule Miner (Attar Software Ltd., Великобритания), а также в AIS и NeuFuz и др.

Генетические алгоритмы входят в инструментарий DM&KDD как мощное средство решения комбинаторных и оптимизацион­ных задач. Они часто применяются в сочетании с нейронными сетями. В задачах извлечения знаний применение ге­нетических алгоритмов сопряжено со сложностью оценки стати­стической значимости полученных решений и с трудностями по­строения критериев отбора удачных решений. Представителем пакетов из этой категории является GeneHunter фирмы Ward Systems Group. Генетические алгоритмы используются также в пакете XpertRule Miner и др.

Логическая (логистическая) регрессия используется для пред­сказания вероятности появления того или иного значения дис­кретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных переменных, что позволяет получить количественные оценки влия­ния этих параметров на зависимую переменную. Полученные ве­роятности могут использоваться и для оценки шансов. Логичес­кая регрессия — это, с одной стороны, инструмент классифика­ции, который используется для предсказания значений категори­альных переменных, с другой стороны — регрессионный инстру­мент, позволяющий оценить степень влияния входных факторов на результат.

Эволюционное программирование — самая новая и наиболее перспективная ветвь DM&KDD. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от дру­гих переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирова­ния. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построе­ния таких программ организован как эволюция в мире программ. Когда система находит программу, достаточно точ­но выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных до­черних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка систе­мы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуа­лизации. Методы эволюционного программирования реализова­ны в системе PolyAnalyst (Unica, США).

В современных средствах DM&KDD часто используются ком­бинированные методы. Например, продукт компании SAS Enterprise Miner 3.0 содержит модуль автоматического построения результирующей гибридной модели, определенной на множестве моделей, которые предварительно были созданы различными ме­тодами: деревьев решений, нейронных сетей, обобщенной мно­гофакторной регрессии. Программная система Darwin, разрабо­танная компанией Thinking Machines, позволяет не только стро­ить модели на основе нейронных сетей или деревьев решений, но также использовать визуализацию и системы рассуждений по аналогии. Кроме того, этот продукт включает своеобразный гене­тический алгоритм для оптимизации моделей. Активно работает в области интеллектуального анализа данных компания IBM. Многие из полученных в ее лабораториях результатов нашли применение в выпускаемых инструментальных пакетах, которые можно отнести к четырем из пяти стандартных типов приложе­ний «глубокой переработки» информации: классификации, кла­стеризации, выявлению последовательностей и ассоциаций.

В настоящее время на рынке представлены разнообразные программные средства, реализующие технологии DM&KDD. Сле­дует отметить, что большинство из них имеет очень высокую сто­имость. Рассмотрим некоторые известные пакеты. Среди инстру­ментальных средств создания интеллектуальных приложений для бизнеса определенный интерес вызывает семейство программных продуктов Business Intelligence (BI) компании Cognos, кото­рое включает четыре взаимосвязанные и дополняющие друг дру­га системы: Impromptu, PowerPlay, Scenario и 4Thought. Отличи­тельной особенностью рассматриваемых средств является соче­тание эффективности реализуемых в них методов с дружествен­ным интерфейсом, что делает их легкодоступными для освоения непрограммирующими пользователями.

Система Impromptu обеспечивает доступ к базам данных, поз­воляя непрофессиональному пользователю формировать разно­образные запросы и отчеты. Система поддерживает работу с рас­пространенными типами СУБД: Oracle, MS SQL Server, Sybase SQL Server, Sybase NetGateway, OmniSQL Gateway, MDI DB2 Gateway, Informix, CA-Ingres, Gupta SQLBase, а также обеспечи­вает доступ через ODBC. Отчеты Impromptu могут использоваться в качестве источников данных для остальных систем семейства BI, выступая при этом в роли информационных витрин.

Система PowerPlay является средством для проведения OLAP-анализа. Технология OLAP позволяет существенно повысить эф­фективность обработки информации в реляционных БД за счет многомерного представления данных в виде гиперкубов; привяз­ки информации ко времени, дающей возможность анализа дина­мики данных; реализации сложной вычислительной обработки больших массивов данных.

PowerPlay обеспечивает многомерный просмотр данных с нисходящим и уровневым анализом, в процессе которого суще­ствует возможность выявления исключений и особых случаев, ранжирования и разнообразной обработки данных. Гиперкубы имеют неограниченную размерность и могут создаваться как на серверах, так и на клиентских компьютерах. Новые версии PowerPlay обеспечивают возможность работы с гиперкубами че­рез Wfeb-браузеры.

Система Scenario предназначена для выявления взаимосвязей в данных статистическими методами, в частности по критерию Хи-квадрат (метод CHAID) для нахождения однородных сегмен­тов данных с «аналогичным» поведением относительно целевого показателя. Кроме того, в системе используется метод деревьев решений для построения классификаций. Результаты обработки данных наглядно отображаются средствами визуализации.

В системе реализованы следующие виды анализа данных:

  • ранжирование — упорядочение факторов по степени их вли­яния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния;
  • сегментация — разделение области значений фактора на сег­менты для проведения дальнейшего нисходящего анализа;
  • профилирование лучших образцов — выявление основных ха­рактеристик наиболее успешных результатов (регионов, филиа­лов, клиентов и т.д.);
  • выявление ассоциаций — поиск ассоциированных групп зна­чений факторов;
  • выявление исключений — поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вы­звано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими опре­деленных действий со стороны руководства.

В системе Scenario реализованы три стратегии анализа:

  • ре­жим исследования, предназначенный для предварительного ана­лиза задачи;
  • режим тестирования, ориентированный на высо­кую точность и надежность результатов;
  • режим верификации, позволяющий проводить оценку достоверности и значимости полученных знаний.

Система 4Thought осуществляет извлечение знаний из БД с применением нейронных сетей, предоставляя следующие воз­можности:

  • моделирование сложных нелинейных зависимостей между факторами и целевыми показателями;
  • выявление тенденций в данных (при наличии временных рядов);
  • работа с неполными и зашумленными данными при относи­тельно небольшом объеме исходной информации.

Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам — записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в пакете Scenario, для постановки задачи моделирования должны быть указаны це­левой (моделируемый) показатель и переменные-факторы. Дан­ные в таблице рассматриваются системой как примеры для обу­чения нейронной сети. Совокупность всех данных разбивается на два подмножества — модельное и тестовое. В каждом цикле обу­чения сеть сначала обучается на модельном подмножестве, а за­тем проверяется корректность ее работы на тестовых данных. Обучение сети проводится до тех пор, пока точность результатов, полученных на модельном и на тестовом подмножествах, растет. При работе с небольшими объемами данных, когда выбор тесто­вого подмножества существенно влияет на результаты обучения, пользователь может проводить обучение последовательными циклами, выбирая для каждого цикла новое разбиение на тесто­вые и модельные данные.

Кроме рассмотренных программных продуктов фирмы Cognos можно привести длинный список программных средств, ориентированных на поддержку DM&KDD. Особенно активно в последние годы развиваются средства с использованием нейрон­ных сетей, примерами которых являются: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).

Применение технологий DM&KDD имеет большие перспек­тивы, так как существенно влияет на увеличение доходов пред­приятия путем выбора правильных стратегий деятельности. Ли­дерами в применении технологий интеллектуального анализа данных являются телекоммуникационные компании и компа­нии, выпускающие кредитные карточки. Средства DM&KDD активно применяют страховые компании и фондовые биржи. Серьезные успехи связаны с применением этих подходов в ме­дицине, где можно прогнозировать эффективность применения медикаментов, хирургических процедур и медицинских тестов. Прогнозирование в финансовой сфере всегда было одной из са­мых актуальных задач. В настоящее время компании, действую­щие на финансовом рынке, на основе М-технологий опре­деляют рыночные и отраслевые характеристики для предсказа­ния индивидуальных и фондовых предпочтений в ближайшем будущем.

Ключом успеха в применении методов DM&KDD являются качество данных, мощность используемого программного обес­печения и мастерство аналитика, который участвует в процессе построения модели. На эффективность обработки данных поло­жительно влияют следующие параметры программного обеспе­чения: развитые средства формирования запросов и визуализации результатов, наличие графического инструментария, воз­можность оперативной аналитической обработки, разнообразие и эффективность алгоритмов построения моделей.

К типовым задачам DM&KDD в области экономики и бизне­са относятся:

  • прогнозирование — в частности, при планировании и со­ставлении бюджета фирмы необходимо прогнозировать объемы продаж и другие параметры с учетом многочисленных взаимо­ связанных факторов: сезонных, региональных, общеэкономиче­ских и т.п;
  • маркетинговый анализ, в результате которого определяется зависимость спроса от таких факторов, как стоимость товара, затраты на продвижение продукции и рекламу и т.д.;
  • анализ работы персонала — производительность труда слу­жащих зависит от уровня подготовки, от оплаты труда, опыта работы, взаимоотношений с руководством и т.д. Установив степень влияния этих факторов, можно выработать методику повышения производительности труда, а также предложить оптимальную стратегию подбора кадров в будущем;
  • анализ эффективности продажи товаров по почте — выявля­ется круг потенциальных покупателей, оценивается вероятность возможных покупок и исследуются различные формы рекламной переписки;
  • профилирование клиентов — формирование «портрета ти­пичного клиента компании», т.е. определение группы клиентов, сотрудничество с которыми наиболее выгодно. Кроме того, важ­но выяснить, почему работа с некоторыми из заказчиков стала неэффективной, и выработать стратегию поиска подходящих клиентов в будущем;
  • оценка потенциальных клиентов — выявление характерных особенностей заявок, которые закончились реальными продажа­ми. Полученные знания используются в процессах планирования переговоров и сделок;
  • анализ работы региональных отделений компании;
  • сравнительный анализ конкурирующих фирм.

Перечисленные задачи актуальны практически для всех от­раслей бизнеса: банковского дела, страхования, финансовых рынков, производства, торговли и т.д.