Інформаційні системи в аграрному менеджменті (1999)

4.1. Загальні поняття класифікації та кодування

Інформаційне забезпечення автоматизованих систем як сукупність реалізованих рішень щодо обсягів, розміщення та форм організації інформації містить у собі методичні та інструктивні матеріали, системи класифікації та кодування, а також інформаційні бази впорядкованої інформації. Методичні й інструктивні матеріали у вигляді державних стандартів, інструкцій, керівництв дозволяють поліпшити організацію інформаційного забезпечення. А класифікація і кодування не лише вдосконалюють таку організацію, а й дають змогу значно підвищити можливості машинних ресурсів, збільшити їх ефективність.

Якщо в умовах ручної обробки інформації її класифікація та кодування є бажаними (наприклад, класифікація матеріальних цінностей на види і групи, присвоєння місяцям року порядкових номерів чи номерів бухгалтерським рахункам), то за умов використання ЕОМ вони необхідні технологічно. Для класифікації та кодування інформації використовуються відповідні методи, які регламентуються стандартом ГОСТ 6.01.1-87 [6].

Класифікація — це поділ множини об’єктів на підмножини за певною ознакою.

Кодування — це створення і присвоєння певного коду класифікаційному угрупованню і (або) об’єкту класифікації. Різновидом кодування є шифрування, що пов’язується із таємністю інформації.

У процесі класифікації інформації застовуються такі терміни: об’єкт класифікації, ознака класифікації, значення ознаки класифікації, класифікаційне угруповання, ієрархічний метод класифікації, фасетний метод класифікації, ступінь класифікації, глибина класифікації, система класифікації.

Об’єктом класифікації називається елемент класифікованої множини (наприклад, сільськогосподарська робота), а ознакою класифікації — властивість чи характеристика об’єкта, за якою виконується класифікація (наприклад, вид роботи). Значення ознаки класифікації — це якісне чи кількісне вираження ознаки класифікації (кількість видів робіт).

Суть ієрархічного методу класифікації полягає в послідовному поділі множини об’єктів на підпорядковані класифікаційні угруповання. Такий поділ добре унаочнюється з допомогою ієрархічного граф-дерева. Наприклад, інформаційну сукупність «працюючі сільськогосподарські підприємства» за ієрархічним методом можна класифікувати так, як це зображено на рис. 4.1.

Перевагою ієрархічного методу класифікації є логічність побудови, велика інформаційна місткість і простота навіть ручного пошуку. Недолік методу полягає в його жорсткій структурі, що іноді позбавляє систему гнучкості, а в разі потреби перегрупувати об’єкти утруднює машинне розв’язування задач (коли виникають заздалегідь не передбачені ознаки).

Особливістю фасетного методу класифікації є паралельний поділ множини об’єктів на незалежні класифікаційні угруповання — незалежні фасети. Так, зазначену щойно інформаційну сукупність «працюючі підприємства» можна класифікувати на такі фасети: чоловіки і жінки; військовозобов’язані і невійськовозобов’язані; з вищою освітою, із середньою освітою, із сердньою спеціальною освітою, без освіти; члени профспілки і не члени профспілки і т. ін. Фасетний метод можна унаочнити так, як це зроблено на рис. 4.2. Замість множини «Працюючі підприємства» можна взяти множину «Чоловіки» і розбити на два класи «партійні» та «позапартійні» та ін.

У разі використання ЕОМ порядок розміщення фасетів задається фасетною формулою, яка встановлюється залежно від характеру об’єкта класифікації та розв’язуваних задач, а також від алгоритму обробки інформації.

Перевагою фасетних класифікацій є їх гнучкість за будь-якого поєднання фасетів, а недоліком є складність використання в багатоаспектних номенклатурах, коли йдеться про ручну обробку даних і обмежене використання ємності класифікації.

На практиці застосовують також алфавітно-предметну класифікацію (наприклад, звичайний алфавітний довідник), де літери алфавіту фактично використовуються для формування відповідних фасетів.

Ступінь класифікації — це етап класифікації при ієрархічному методі, у результаті якого дістають сукупність класифікаційних угруповань; число таких ступенів класифікації являє собою глибину класифікації. У наведеному щойно прикладі ієрархічного методу класифікації маємо дворівневу глибину класифікації: класифікація на рівні бригад є першим, а на рівні ланок — другим ступенем класифікації.

Системою класифікації називають сукупність методів і правил класифікації та її результат.

З процесом кодування пов’язується така термінологія: код, алфавіт(абетка) коду, основа коду, цифровий алфавіт коду, буквений алфавіт коду, буквено-цифровий алфавіт коду, розряд коду, довжина коду, структура коду, послідовний метод кодування, паралельний метод кодування, порядковий метод кодування, серійно-порядковий метод кодування, система кодування, перекодування, таблиця перекодування, контрольне число.

Код — це знак чи сукупність знаків, застосовуваних для позначення класифікаційного угруповання і (або) об’єкта класифікації, а система знаків, узятих для створення коду, — це алфавіт коду. Число знаків у алфавіті коду — основа коду.

Залежно від того, які знаки використовуються в алфавіті коду, коди економічних номенклатур бувають переважно цифрові, буквені, буквено-цифрові. Наприклад, код такої одиниці вимірювання як метр — 02, код виду бензину — А76 і т. ін. Останнім часом у системі реалізації і купівлі матеріальних цінностей набули поширення штрихові коди, що наносяться на товар, його упаковку чи тару (рис. 4.3).

Такі коди можуть спеціальним пристроєм автоматично зчитуватися й уводитися в ЕОМ, забезпечуючи автоматичне визначення вартості покупки і швидкий розрахунок за неї. Код, як правило, включає не тільки код товару, а й код країни-виробника.

Зауважимо, що в комп’ютерних технологіях використовуються ще такі різновиди кодів, як коди подання чисел (двійковий, вісімковий, десятковий і т. ін.), коди обробки даних (ДКОІ-7, ДКОІ-8), коди захисту (виявлення і виправлення помилок), спеціальні коди (прямий, зворотний, додатковий). Проте кодування з допомогою цих кодів здійснюється переважно автоматично і користувачі безпосередньо ними користуються рідко.

Позицію знака в коді називають розрядом коду, а число знаків у коді без урахування пробілу — довжиною коду. Умовне позначення складу і послідовності розміщення знаків у коді являє собою структуру коду.

Поряд з поняттям «код» існує поняття ідентифікатор. Ідентифікатор також є скороченим позначенням (переважно буквеним) об’єкта класифікації, але здебільшого призначений для візуального сприймання у відповідній документації та для використання у програмуванні. Наприклад, замість «сільськогосподарське підприємство» можна писати СГП, Sј тощо.

Згідно зі стандартом ГОСТ 6.01.1-87 подається визначення чотирьох методів кодування — послідовного, паралельного, порядкового і серійно-порядкового. При цьому під послідовним методом кодування розуміють утворення коду класифікаційного угруповання і (або) об’єкта класифікації з використанням кодів послідовно розміщених підпорядкованих угруповань, здобутих згідно з ієрархічним методом класифікації, і його присвоєння.

Паралельний метод кодування — це утворення коду класифікаційного угруповання і (або) об’єкта класифікації з використанням кодів незалежних угруповань, здобутих згідно з фасетним методом класифікації, і його присвоєння.

Порядковий метод кодування — утворення коду з чисел натурального ряду і його присвоєння.

Серійно-порядковий метод кодування — утворення коду з чисел натурального ряду, закріплення окремих серій чи діапазонів цих чисел за об’єктами класифікації з однаковими ознаками та його присвоєння.

Сукупність методів і правил кодування класифікаційних угруповань і (або) об’єктів класифікації називають системою кодування. У літературі розглядають такі системи кодування: порядкову, серійну, десяткову (порозрядну), шахову, повторення та комбіновану. Ці системи базуються на перелічених щойно методах, а тому певною мірою є їх аналогами чи різновидами.

Порядкова система кодування базується на порядковому та послідовному методах кодування. У разі її використання позиціям згрупованої номенклатури присвоюються коди в порядку зростання номерів: 1,2,3 і т.д. Переваги системи в малозначності кодів, простоті побудови, легкості запам’ятовування. Недолік — якщо в певному періоді дії коду виникає нова позиція номенклатури, їй присвоюється вільний порядковий номер, чим порушується вибрана система класифікації (якщо тільки ця позиція справді не виявиться останньою в згрупованій номенклатурі). Наприклад, новий студент з першою літерою А у прізвищі дописується в кінець сформованого списку.

Серійна система кодування є різновидом порядкової, але для кожного угруповання виділяється серія номерів із запасом (на випадок появи нових позицій номенклатури). Перевага системи — створений код має невелику довжину, легко запам’ятовується (за невеликої кількості класифікаційних угруповань), класифікація не порушується з появою нових позицій номенклатури. Недолік — важко запам’ятовувати і користуватися кодами в разі великої кількості класифікаційних угруповань, через що система використовується переважно при двоцифровій номенклатурі (код видів оплат і утримань, код видів і марок тракторів та ін.).

Десяткова система кодування є різновидом порядкової та серійної систем, але серії кодових позначень виділяються для певних угруповань кратними одиниці з нулями — 10, 100 і т.д. (залежно від кількості класифікаційних одиниць в угрупованні). При цьому виходить так, що для кожного класифікаційного угруповання в коді виділяється 2, 3 і т.д. розряди (залежно від кратності одиниці з нулями для серії номерів). Через це система ще називається порозрядною. Перевага системи — у логічності побудови коду, наочності і легкості його запам’ятовування, тому вона найчастіше використовується в державних класифікаторах. Недоліком системи є велика довжина коду, особливо в разі багатьох угруповань. До цього призводить значна частина запасних номерів у виділених серіях, оскільки серії необхідно округляти до одиниці з нулями.

Шахова система кодування є різновидом десяткової, але використовується при наявності двозначної номенклатури, коли можна побудувати так звану «шахову таблицю». Це видно з коду причин і винуватців простоїв:

Позитивною властивістю шахової системи є наочність і легкість запам’ятовування коду, а недоліком — обмеженість використання.

Суть системи повторення полягає в тому, що в конкретному коді повторюється якась кількісна сторона властивості об’єкта, яка існувала до розробки коду. Наприклад, у номенклатурному номері гвіздків може повторюватися їх довжина чи діаметр, у гаражному номері автомобіля може повторюватися частина номера державтоінспекції і т. ін. Переваги та недоліки системи аналогічні тим, що їх має шахова система.

Комбінована система кодування є різновидом десяткової, але в коді наявного в ньому якогось угруповання використана також інша система кодування. Наприклад, у коді витрат на виробництво для кодування об’єктів витрат використана серійна система кодування, а для галузей — порядкова і т.д. Переваги та недоліки системи залежать від використовуваних у ній інших систем кодування.

У процесі класифікації та кодування іноді виконується операція перекодування, що полягає у присвоєнні закодованому угрупованню чи закодованому об’єкту класифікації нового коду. При цьому можуть використовуватися перекодовувальні таблиці, тобто таблиці відповідності кодів одних і тих самих класифікаційних угруповань і (або) об’єктів класифікації з різних класифікаторів.

Для підвищення достовірності інформації при її перетворенні у процесі кодування розраховується контрольне число, що використовується для перевірки правильності запису кодів. Таке число дописується праворуч від основного коду і вважається його складовою частиною. Контрольне число розраховується за взятою розробниками кодів формулою. Наприклад, для розрахунку контрольного числа К це може бути така формула:

Співмножниками до значень розрядів кодів можуть бути довільні числа, але найчастіше береться натуральний ряд чисел. Модулем може бути число 9, 13, або інше непарне число. Визначимо контрольне число до основного коду 2137 за наведеною формулою.

Основний код — 2137;

співмножники — 4321.

Тоді К=11 – (остача від ділення (8+3+6+7)/11) = 11 – 2 = 9.

Контрольне число дорівнює 9, а повний код – 21379 (якщо К=10 чи 11, то К береться 0 чи 1) . При введенні такого коду в ЕОМ машина сама виконує розрахунок за цією формулою і порівнює результат з контрольним числом у коді. Їх незбіг свідчить про помилку в коді, яку за наявності відповідного алгоритму може знайти і виправити сама ЕОМ.

У процесі автоматизованої обробки інформації її кодування дозволяє зменшити обсяг пам’яті для зберігання та обробки інформації, прискорити процес її пошуку, передавання й обробки. Тому до кодів і кодування висуваються відповідні вимоги. Коди мають бути: переважно цифровими і буквено-цифровими; мати мінімальну довжину і забезпечувати автоматичне групування інформації; включати всі об’єкти номенклатури; єдиними для всіх ділянок планування, обліку та аналізу; забезпечувати можливість передавання інформації на різні рівні управлінської системи.

Процес класифікації та кодування складається із взаємопов’язаних етапів:

1. Вивчення об’єкта, задач та інформації, що підлягає кодуванню.

2. Визначення класифікаційних ознак, множин і підмножин класифікації.

3. Групування інформації згідно з обраною класифікацією.

4. Вибір методів і систем кодування, присвоєння кодів.

5. Друкування і розмноження класифікатора.

6. Впровадження і використання класифікатора.