Інформаційні системи і технології в статистиці (2003)

3.3.4. Спеціалізовані статистичні пакети

На сьогодні існує близько 1000 поширених на світовому ринку пакетів, що вирішують задачі статистичного аналізу даних у середовищі DOS, OS/2 чи Wіndows.

Статистичні прикладні програми поділяються на універсальні, напівспеціалізовані, спеціалізовані пакети й статистичні експертні системи.

Із західних універсальних пакетів найбільш відомі й добре відпрацьовані комп’ютерні системи SAS, SPSS, STATISTIKA, STATGRAPHICS (STSC) та ін.

Напівспеціалізованими вважають російські пакети STADІ, ОЛІМП, білоруський пакет РОСТАН та американські пакети ODA, WіnSTAT, Statіt, UNІSTAT, Multіvarіance 7, JMP, SOLO, STATlab. До спеціалізованих пакетів з класифікації та зниження розмірності належать російські пакети КЛАС-МАЙСТЕР, КВАЗАР, PALMODA, Stat-Medіa, STARC. Досить відомими є спеціалізовані пакети, що вирішують суміжні з класифікацією задачі. Це американські системи BMDP/W, SіgmaStat, Statіstіx, TURBO Sprіng-Stat-Wіn, MVSP. Крім того, на ринку програмного забезпечення представлені статистичні експертні системи, зокрема, СТАТЭКС, Statіstіcal Navіgator Pro.

Розглянемо деякі з цих пакетів.

Система SAS існує і розвивається з 1976 р. Сьогодні — це могутній комплекс з більш як двадцятьма різними програмними продуктами, об’єднаними один з одним «засобами доставки інформації» (Іnformatіon Delіvery System, ІDS, іноді весь пакет позначається як SAS/ІDS). SAS відрізняє неперевершена потужність щодо набору статистичних алгоритмів. Система надає користувачеві можливість приєднання його оригінальних алгоритмів. Основними користувачами системи є підприємства ВПК, великі банки, біржі, торгові фірми, деякі атомні станції, найбільші медичні та геофізичні центри, великі державні структури.

Під поняттям «ІDS» розробник системи розуміє, що її користувачеві для 100-відсоткової інформатизації діяльності будь-якої фірми достатньо поставити на свій комп’ютер ОС і систему SAS — усі інші функції (типу задач, розв’язуваних на основі Excel, Word, кожної із СУБД тощо) повністю візьме на себе SAS/ІDS.

SAS має вбудовані мову програмування 4GL і мову роботи з базами даних SQL; містить ділову, наукову, рекламну графіку, різні шрифти і карти, багатофункціональний набір статистичних процедур аналізу даних; забезпечує користувачеві експертну підтримку. Зокрема, система підказує користувачеві, виконуються чи ні припущення, що лежать в основі певного методу аналізу даних.

Система SAS дає змогу будувати окремі інтерфейси для зв’язку SAS/ІDS з найрізноманітнішими CУБД (ADABAS, DB2, ORACLE, SQL/DS тощо).

Основні вади системи: громіздкість, складність освоєння, високі вимоги до статистичної кваліфікації користувача, тверді вимоги до апаратної частини ПЕВМ, її великий розмір на диску.

Пакет SPSS відомий у науковому і діловому світі з часу реалізації на великих машинах. В останні роки переорієнтований на платформу Wіndows. Пакет SPSS вимогливий до технічного забезпечення: процесор має бути 486DX-2 і вище, для його використання рекомендується 16 Мб оперативної пам’яті, 65—80 Мб дискової пам’яті. Пакет має дуже великий набір статистичних (їх понад 60) і графічних процедур, а також процедур створення звітів. Має зручний інтерфейс SPSS. Відрізняється високою точністю обчислень.

Статистичний аналіз з допомогою пакета SPSS доступний як досвідченим, так і рядовим користувачам. Крім меню і діалогових вікон, у ньому є мова команд, яку можливо використовувати для створення і запуску робочих завдань. Знаходячись у діалоговому вікні, можна вставляти команди у вікно синтаксису, де їх можна зберігати і редагувати. Система підказки містить короткі статистичні діаграми в доповнення до повної системи допомоги за графічним користувацьким інтерфейсом.

SPSS має додаткові програмні засоби, які працюють на декількох платформах і дають змогу розширювати можливості базового модуля. Поряд з розширенням статистичних процедур базового модуля змінено зміст модулів Professional Statistics, Advanced Statistics.

Модуль SPSS Professional Statistics містить методи регресійного аналізу, зокрема зважений, двоетапний метод найменших квадратів, логічну регресію і нелінійну регресію, а також багатомірне шкалування та аналіз надійності.

Модуль SPSS Advanced Statistics дає змогу провести аналіз з допомогою складних статистичних методів, таких як загальне лінійне моделювання, аналіз компонент дисперсії, логлінійний, а також аналіз виживання.

Модуль SPSS Таbles є інструментом для створення різноманітних високоякісних таблиць, включаючи таблиці, вкладені одна в одну й таблиці для подання багатоваріантних відповідей.

Модуль SPSS Trends виконує будь-які види прогнозування та аналізу часових рядів з допомогою моделей добору кривих, моделей згладжування і методів оцінювання авторегресійних функцій.

Модуль SPSS Categories здійснює сумісний аналіз і процедури оптимального шкалування, в тому числі й аналіз відповідностей.

Модуль SPSS CHAID спрощує і прискорює аналіз дискретних даних, розробляє прогностичні моделі, відфільтровує зайві фактори і будує нескладні дереподібні діаграми, котрі поділяють вибірку на підгрупи, що мають схожі характеристики.

Neural Connektion з допомогою потужної нейронної мережі та через свою надзвичайну гнучкість вносить творчий елемент у функції прогнозування, класифікації, аналізу часових рядів, а також сегментації даних.

Mapln fo створює тематичні карти для візуалізації даних і картографічні файли.

Allclear є повною графічною програмою, яка дає змогу створювати причинно-наслідкові діаграми, динамічні блок-схеми, мережі, дерева прийняття рішень, організаційні схеми.

Базовий модуль SPSS розроблений для систем, які працюють на платформах Windows 95 або Windows NT.

Для оброблення статистичної інформації широко використовується інтегрована система статистичного аналізу й оброблен- ня даних STATISTIKA. Основними компонентами системи STATISTIKA є: електронні таблиці для введення вхідних даних, а також спеціальні таблиці виведення числових результатів аналізу; потужна графічна система для візуалізації даних і результатів статистичного аналізу; набір спеціалізованих статистичних модулів, у яких зібрано групи логічно зв’язаних між собою статистичних процедур; спеціальний інструментарій для підготовки звітів; убудовані мови програмування SCL (STATISTICA Command Language) і STATISTICA BASIC, які дають змогу користувачеві розширити стандартні можливості системи. STATISTICA працює з чотирма різними типами документів, які відповідають основним структурним компонентам системи. Це:

електронна таблиця, яка призначена для введення вхідних даних і їх перетворення;

електронна таблиця для виведення числових і текстових результатів аналізу;

графік-документ у спеціальному графічному форматі для візуалізації та графічного подання числової інформації;

звіт-документ у розширеному текстовому форматі для виведення текстової та графічної інформації.

Відповідно до стандартів середовища Windows кожний тип документа виводиться у своєму власному вікні в робочій області системи STATISTICA.

Пакет STATGRAPHICS реалізує такі статистичні функції: параметричні та інші непараметричні тести; категоріальний, дисперсійний, однофакторний, двофакторний, багатофакторний аналіз, коваріаційний аналіз; контроль якості; регресійний аналіз; аналіз часових рядів, багатомірні методи. Пакет має широкі графічні можливості. Доступ до графічних процедур здійснюється в процесі статистичного оброблення даних. Пакет призначений в основному для тих користувачів, що вже мають певний досвід у статистиці. Пакет надає широкі можливості взаємодії з електронними таблицями та СКБД (типу dBASE та її «нащадків»). Обмін з електронними таблицями у Wіndows-версії виконується через стандартний буфер обміну (Wіndows clіpboard).

Щодо класифікації та суміжних з нею задач пакет містить такі розділи, як дескриптивна статистика, розвідувальний аналіз, багатомірний аналіз. Крім того, STSC має ще вісім великих розділів, які стосуються методів математичної статистики.

Вади (незначні) STSC+/W: нечіткість довідкової системи та видача результатів розрахунків з точністю до 4—5 значущих цифр.

Розглянемо деякі зі спеціалізованих і напівспеціалізованих пакетів.

Пакет КЛАС-МАЙСТЕР призначений для розв’язання задач кластерного аналізу. Пакет імпортує/експортує дані стандартного формату ASCІІ чи DBF і подає їх у вигляді таблиці «об’єкт-ознака». Крім того, пакет охоплює методи описової статистики, прогнозування, конструювання (створення нових ознак). Вада пакета: усі результати обчислень видаються або у вигляді набору цифр (у текстовому режимі), зрозумілого без документації лише людині зі спеціальною статистичною підготовкою, або у графічному вигляді, інтуїтивно зрозумілому навіть неспеціалістові.

Пакет PALMODA (Параметричні логічні моделі аналізу даних). Версію для MS-Wіndows розроблювачами названо ЛОРЕГ.

Пакет призначений для аналізу даних і розпізнавання образів, розв’язання задач класифікації та прогнозу, пошуку логічних закономірностей і підтримки прийняття рішень в умовах невизначеності.

Пакет STARC має як DOS, так і Wіndows версію. Він складається з модулів для розв’язання задач: класифікації «з учителем» — дає змогу будувати класифікатори, порівнянні з якістю з класифікаторами, одержуваними в нейромережах лінійного типу, що використовують прямі зв’язки нейронів (feed forward); кластерного аналізу і стискання даних; статистичних обчислень і графіки, перетворення ознак. У сервісних модулях можна вводити і редагувати різні бази даних, перевіряти формат даних, активізувати ті чи ті підмножини даних, формулювати завдання командною мовою пакета, генерувати по Монте-Карло ті чи ті тестові дані та формувати звіт за результатами роботи користувача з конкретними даними.

Російський пакет КВАЗАР Комплекс обчислювальних алгоритмів для задач розпізнавання призначений для розв’язання задач класифікації. У пакеті для ПЕВМ реалізовано підхід до розпізнавання образів, що ґрунтується на застосуванні теорії лінійних нерівностей і так званого методу комітетів для системи лінійних нерівностей (оригінальні алгоритми розробників). Крім того, у пакеті використовуються і деякі інші алгоритми (метод головних компонентів, елементи розвідувального аналізу даних тощо).

Програма PolyAnalyst, що працює під керуванням OS/2 Warp фірми ІBM, спроможна автоматично виявляти знання, сховані в базах даних. Науковий напрям, до якого належить програма, називається Data Mіnіng and Khowledge Dіscovery («видобування даних і виявлення знань»). Програма працює з даними довільного типу: дійсними чи цілими, логічними чи якісними. Вона вміє знаходити багатофакторні залежності в даних у вигляді аналітичних формул, структурних правил та алгоритмів, виводити за навчальними прикладами правила для класифікації нових даних.

Програма Poly Analyst належить до відносно нового напряму штучного інтелекту, що називається «символічні методи витягування знань із баз даних».

Програма MVSP (Multі-Varіate Statіstіcs Program) виконує аналіз головних компонентів, аналіз відповідностей, кластерний аналіз за одним з підходів до угрупування. Використовується у фінансовій сфері.

Комп’ютерна система МЕЗОЗАВР(MESOSAUR) розроблена й продається в СНД і за кордоном з початку 90-х років. Програма МЕЗОЗАВР призначена для аналізу часових рядів. У формі тимчасових рядів можуть виступати найрізноманітний дані з економіки, демографії, техніки, медицини тощо. У програмі реалізовано різні алгоритми згладжування часових рядів, виділення в ряді сезонних коливань, виконання спектрального аналізу і частотної фільтрації. Крім того, є різноманітні моделі та методи: лінійні та нелінійні моделі тренда, авторегресійні моделі, множинна лінійна регресія, модель Бокса-Дженкінса (ARІMA) з експертної підтримки. Програма імпортує/експортує дані ASCІІ, dBASE, Lotus 1—2—3, САНИ.

Статистичні експертні системи відрізняються наявністю бази знань (БЗ) і механізмом логічного виведення нових знань на підставі БЗ.

Головна відмінність пакета «СТАТЭКС» полягає в тому, що він містить ознаки експертної системи, тобто орієнтований не на методи, а на мету аналізу даних. Користувач пакета «СТАТЭКС» може зовсім не знатися на механізмі оброблення даних, але має чітко розуміти зміст його даних і загальну мету аналізу. Результати аналізу видаються у вигляді контекстно-орієнтованих екранів, які містять коментарі, що дає змогу розглядати їх як готові рішення. Пакет має базу знань, яка являє собою набір правил, пов’язаних із властивостями та особливостями застосування статистичних методів, і базу даних, яка уможливлює зберігання інформації у вигляді «куба»: таблиці «об’єкт-ознака» і «час». У пакеті реалізовано режим «Why?», призначений для пояснення мотивів прийнятого «СТАТЭКС» рішення. У пакеті реалізовано такі методи: розрахунок стандартних статистичних характеристик; класифікація об’єктів (комбінаційне угруповання, кластерний аналіз); виявлення та аналіз статистичних залежностей ознак (кореляція, угруповання ознак, головні компоненти і візуалізація); установлення залежностей (регресійний аналіз, індексний аналіз і розпізнавання образів); прогнозування (економетричні моделі).

Органи державної статистики використовують статистичні пакети для аналізу статистичних даних типу SAS, SPSS.