Інформаційні системи і технології в статистиці (2003)

3.1.2 Системи класифікації та кодування

Використання систем класифікації та кодування — необхідний елемент автоматизованого оброблення даних.

Класифікація є одним із засобів вивчення природи досліджуваних об’єктів шляхом їх упорядкування і систематизації.

Система правил, відповідно до якої здійснюється розбиття множини об’єктів, що вивчаються, на підмножину за значенням тих чи тих характеристик і ознак, та результати, одержувані при їх використанні, називається системою класифікації, а процес ранжування об’єктів за цією системою — класифікуванням.

Класифікація є одним з найважливіших етапів проектування інформаційного забезпечення систем автоматизації; вона також забезпечує основу аналізу і моделювання інформаційних потоків.

Щоб класифікувати об’єкти будь-якої природи, необхідно визначити набір класифікаційних ознак, що визначають підставу розподілу об’єктів.

Будь-яка класифікація інформації має відповідати таким основним вимогам:

забезпечення повноти охоплення об’єктів множини, що вивчається;

неперетинання груп об’єктів, що виділяються;

можливість включення нових груп об’єктів;

лаконічність, чіткість і зрозумілість класифікаційних ознак;

незмінність прийнятої класифікаційної ознаки на всіх рівнях класифікації.

До основних систем класифікації економічної інформації належать ієрархічна, фасетна і змішана. Ієрархічна система класифікації — це система, у якій поділ множини об’єктів на підмножини виконується послідовно згідно із заданими ознаками. Первинна множина об’єктів спочатку поділяється на підмножини, утворені за однією ознакою, котра може набувати різних значень. Далі кожна здобута підмножина поділяється на групи за значеннями наступної ознаки. Ці групи у свою чергу поділяються на підгрупи за наступними ознаками і т. д. Між виділеними групами об’єктів встановлюється певна ієрархія. При цьому кожна підмножина належить лише одній вищій множині. Ієрархічна система класифікації характеризується глибиною, тобто кількістю ступенів поділу первинної множини, або, що те саме, кількістю заданих ознак класифікації. Ієрархічній системі класифікації притаманні простота, наочність, логічність побудови, добра пристосованість до ручного оброблення. Вадами такої системи є жорсткість структури через фіксованість ознак і порядку їх розміщення, складність включення нових ознак, необхідність великого резерву місткості.

Фасетна класифікація полягає в паралельному поділі множини об’єктів на незалежні підмножини (класифікаційні угрупування). Послідовність створення фасетних угрупувань задається фасетною формулою

Ф = (ф1, ф2,…, фn).

Одні й ті самі об’єкти можуть входити до різних підмножин Xi.

Наприклад:

X1 = (ф1, ф2,…, фr);

X2 = (ф1,…, фr – 1);

...

Xn = (ф1, ф2).

Переваги фасетної системи класифікації полягають у гнучкості її структури, можливості включення нових фасет і виключення старих.

До вад такої системи можна віднести нетрадиційність і складність її використання в разі ручного оброблення даних і недостатньо повне використання місткості з огляду на те, що багато можливих комбінацій фасет не мають практичного застосування. Зміна системи класифікації передбачає використання обох згаданих систем.

В ієрархічній системі класифікації на будь-якому рівні підмножини елементи не повинні перетинатися. Сума елементів усіх множин кожного рівня дорівнює кількості елементів первинної (початкової) множини. Для фасетної класифікації це не є обов’язковим, сума елементів підмножини може бути більшою за кількість елементів початкової множини. Для фасетної системи обов’язковим є неповторюваність ознак.

Вибраний метод класифікації має задовольняти такі вимоги:

бути достатньо містким і повним;

характеризуватися достатньою економічно обґрунтованою глибиною;

кількість ознак має бути виправданою;

забезпечувати розв’язання всіх комплексів задач;

характеризуватися лаконічністю, гнучкістю та якістю класифікаційних ознак.

При проектуванні інформаційних систем можливе застосування різноманітних систем кодування: порядкової, серійно-порядкової, послідовної, кодування з повторенням та інші.

Порядковий засіб кодування — це формування коду з чисел натурального ряду та його присвоєння. Це найбільш повний і простий засіб. Застосовується для однопризначних номенклатур.

Серійно-порядковий засіб — формування коду з чисел натурального ряду і закріплення окремих серій чи діапазонів цих чисел за об’єктами класифікації з однаковими ознаками, та його присвоєння. Застосовується для двопризначних номенклатур.

Послідовний засіб — формування коду класифікаційного групування чи об’єкту класифікації з використанням кодів послідовно розміщених підпорядкованих групувань, що одержують при ієрархічному засобі класифікації, та його присвоєння.

Паралельний засіб — формування коду класифікаційного групування чи об’єкту класифікації з використанням кодів незалежних групувань, одержаних під час фасетного засобу класифікації, та його присвоєння.

При утворенні системи класифікації та кодування для об’єкту застосовуються різноманітні комбінації методів класифікації та кодування, вибір яких залежить від призначення класифікатора, специфіки вирішуваних завдань та вибору обчислювальної техніки.

До кодів ставляться такі вимоги:

забезпечення розв’язання всіх задач системи за їх мінімальної довжини кодів;

єдність кодів на всіх рівнях;

структура коду повинна забезпечити групування інформації в необхідних розмірах;

коди можуть бути як внутрiшньомашинні, так і зовнішні.

Внутрiшньомашинні коди використовуються обчислювальною системою, а зовнішні, крім цього, й користувачем.