Інформаційні системи і технології в статистиці (2003)

6.4. Основи побудови банку статистичних даних для комерційної діяльності

Створення статистичного АБД для комерційної діяльності спрямоване на розв’язання таких основних задач:

забезпечення інформаційного обслуговування українських і закордонних користувачів шляхом надання їм доступу до проблемноорієнтованих і спеціалізованих баз даних, які містять динамічні ряди показників, аналітичні текстові та бібліографічні матеріали державної статистики;

забезпечення комплексного інформаційно-довідкового обслуговування користувачів шляхом надання їм інформації про склад баз даних АБД, реґламент їх актуалізації та поповнення новими статистичними показниками і матеріалами, а також коментарів з методології обчислення і зіставлення даних, які зберігаються в АБД;

навчання користувачів роботі з банком даних через навчальну підсистему КАБСД;

надання користувачам консультацій через автоматизовану систему електронної пошти.

КАБСД забезпечує такі основні режими інформаційного обслуговування користувачів: «on-line», «off-line», вибіркове розповсюдження інформації.

Режим «on-line» що є найпоширенішим, часто використовується в інформаційному обслугованні користувачів більшості комерційних АБД. Він забезпечує безпосередню взаємодію користувачів АБД у процесі пошуку та оброблення інформації, яка передається на термінальний пристрій (дисплей або персональну ЕОМ) під час сеансу роботи з АБД.

Режим «off-line» відрізняється від «on-line» тим, що інформація, яка видається АБД за запитом користувача, не спрямовується на термінальний пристрій, а у вигляді паперового документа надсилається користувачеві поштою. Цей режим також досить поширений в комерційних АБД; він задовольняє багатьох користувачів, які не потребують особливої оперативності одержання інформації з АБД. До того ж, порівняно з режимом «on-line» вартість надаваних послуг є досить низькою.

Режим вибіркового розповсюдження інформації є розвинутою формою «off-line» і будується на основі каталогізованих запитів. У цьому режимі користувач може розмістити свій запит у каталог запитів АБД для довгострокового зберігання з метою постійного одержання з поштою нових даних за певною тематикою. КАБСД повинен забезпечувати автоматичний перегляд каталогізованих запитів і видачу інформації: при кожній актуалізації даних, на які є посилання, у каталогізованому запиті; на вимогу користувача; у задані користувачем моменти часу. Ціни на послуги вибіркового розповсюдження інформації вищі, ніж на послуги в режимі «off-line», однак зручність одноразового звернення до АБД і постійного одержання нової інформації залучає до нього постійних користувачів (наукових робітників, співробітників комерційних організацій, які мають довготривалі інтереси, і т. д.).

Комерційний автоматизований банк статистичних даних являє собою систему інформаційних, програмних, мовних, організаційних і технічних засобів, призначених для введення, нагромаджування, зберігання, актуалізації, оброблення і видання статистичних даних за запитами користувачів. Розроблення КАБСД спирається передусім на загальні принципи побудови автоматизованих систем оброблення економічної інформації. Ці принципи широко висвітлюються у вітчизняній і зарубіжній літературі.

Основними параметрами функціонування КАБСД є:

підвищена надійність роботи всіх елементів системи;

наявність специфічних для КАБСД підсистем (наприклад, автоматизованих розрахунків з користувачами);

зручна мова і засоби інформаційної навігації для ефективного формування запитів;

швидка реакція системи при реалізації інформаційних послуг;

наявність конкурентоспроможного інформаційного фонду статистичних даних і матеріалів, які за своєю тематикою, ступенем достовірності та актуалізації користуються постійним або стійким періодичним капіталом.

Інформаційний фонд (ІФ) складається з фактографічних і документальних баз даних, які знаходяться під керуванням СКБД та ІПС, і фонду службової інформації. Кожна база даних поділяється на розділи, рубрики та підрубрики. Підрубрики виділяються тільки у великих за обсягу і відносно самостійних за змістом інформаційних сукупностях для зручності користувачів. Логічна структура баз даних має відповідати системі статистичних показників соціально-економічного розвитку України, що забезпечує зручність для користувача у процесі навігації по базах даних, логіку в організації процесів, їх актуалізації та розширенні. Принципову схему КАБСД наведено на рис 6.1.



Логічну структуру інформаційного фонду КАБСД унаочнює рис. 6.2.

У базах даних зберігається інформація: про населення; працю і кадри; національне багатство; охорону довкілля та раціональне використання природних ресурсів; науково-технічний прогрес; витрати, собівартість, ціни, тарифи; виробництво суспільного продукту; обертання суспільного продукту; національний прибуток, його розподіл і використання; діяльність невиробничої сфери народного господарства; соціальний розвиток народу; фінанси, кредит, грошовий обіг; зовнішні зв’язки. Логічна структура інформаційного фонду КАБСД охоплює фактографічну базу даних (розділи, рубрики, підрубрики і динамічні ряди показників) і документальну базу даних (розділи, які включають текстові документи).



Отже, інформаційна модель КАБСД включає фактографічну базу даних, яка містить динамічні ряди статистичних показників соціально-економічного розвитку України та зарубіжних країн, і документальну базу даних з аналітичними статистичними матеріалами та бібліографією з проблем статистики України.

Наприклад, фактографічна інформаційна КАБСД може мати такі бази даних:

1. Громадянин і середовище його життєдіяльності. Рубрики БД: населення і його склад; сім’я і прибутки; забезпеченість населення товарами і послугами та їх споживання; умови праці та життя; виробництво та ефективність; освіта і культура; здоров’я і довкілля; моральна статистика.

2. Виробництво і споживання товарів масового попиту на душу населення.

3. Динаміка індексу цін на товари народного споживання.

4. Прибутки населення і бюджет сім’ї.

5. Державний бюджет, прибутки і витрати підприємств та організацій.

6. Собівартість, витрати та втрати в народному господарстві.

7. Національне багатство.

8. Урожайність сільськогосподарських культур і продуктивність худоби та птиці за різних форм власності.

9. Науково-технічний прогрес та ефективність виробництва. Рубрики БД: загальні показники НТП; упровадження прогресивних технологій по народногосподарських комплексах; фактори впливу науково-технічного прогресу в підвищенні ефективності виробництва.

10. Капітальне будівництво.

11. Міжнародні порівняння основних показників розвитку України та інших країн світу.

12. Міжнародна торгівля і зовнішньоекономічні зв’язки.

13. Реєстр сумісних підприємств.

Мінімальною логічною одиницею у фактографічній базі даних є статистичний показник, тобто кількісна характеристика конкретного економічного явища, процесу або об’єкта. У БД показники логічно об’єднуються в динамічні ряди, кожний з яких складається з найменування показника, його додаткових ознак і значень на певний період часу.

У КАБСД використовується така структура динамічного ряду показника: найменування показника, ознака періодичності, ознака території, інші додаткові ознаки, які уточнюють конкретний економічний зміст показника, а також значення показника, пов’язані з ознаками часу характеристики.

Як дескрипторій для пошуку даних використовуються найменування та всі ознаки показника. Наприклад, динамічний ряд показника річної періодичності: «Чисельність наявного населення у віці до 30 років у м. Києві за 1996—2000 роки в тисячах чоловік структурується за територіями». Його дескрипторами є: назва показника (НП) — чисельність наявного населення; ознака періодичності (Ш) — річна періодичність; ознака території (Т) — м. Київ; часова характеристика (діапазон) — 1996—2000 рр.; ознака вікової структури (ДП1) — у віці до 30 років.

Ознаку одиниці виміру включено в найменування показника — тисяч/чоловік.

БД допускається зберігання декількох динамічних рядів, які мають те саме найменування показника, але різняться набором додаткових ознак.

Кожний динамічний ряд показників подається у вигляді рядка рубрики або запису файла СКБД. Запис поділяється на поля, які містять коди найменувань ознак, а також значення показника динамічного ряду.

Організація зберігання значень динамічних рядів показника може здійснюватися у два способи:

1. Кожне значення в динамічному ряді показників пов’язується з конкретним значенням тимчасової характеристики;

2. Значення в динамічному ряді показників зберігається окремо від значення тимчасової характеристики, а їхнє взаємне прив’язування виконується шляхом перерахунку за формулою

П(М) = (М – Н) : Ш + 1,

де П — позиція значення показника на М-й момент часу;

М — значення часової характеристики;

Н — початкове значення часової характеристики динамічного ряду;

Ш — ступінь (крок) динамічного ряду.

Перевага першого способу полягає у відсутності необхідності зберігання пустих значень показників. Вада його — велика надмірність у зв’язку зі зберіганням значень тимчасової характеристики в довгих динамічних рядах. Другий спосіб економніший для зберігання довгих динамічних рядів, економічніший, але його вада — необхідність проведення додаткових розрахунків перед вибіркою значень показників динамічного ряду.

Оскільки КАБСД призначений для зберігання довгих динамічних рядів показників в одному записі, то застосовується другий спосіб. Для ведення документальних баз даних використовується інформаційно-пошукова система, яка забезпечує зберігання текстового, таблично-текстового і бібліографічного матеріалу, та гнучкий інтерфейс з користувачами для пошуку необхідної інформації за ключовими словами і словосполученнями, за довільними словами і словосполученнями, які містяться в тексті документів, за виділеними полями (автор, назва, дата випуску і т. д.).

У разі роботи в режимі on-line користувач має можливість одержувати повний список ключових слів, за якими відбувається пошук інформації, або вибір елементів для пошуку зі списків, які подає програма. Оформлення вибраних й оброблених даних полягає в надані документам уніфікованого вигляду.

Програмні засоби забезпечують виконання повного обсягу функцій КАБСД:

ведення фонду службової інформації;

пошук і видачу списку, де знаходиться інформація, зокрема довідкова;

організацію пошуку і вибирання фактографічної і документальної інформації;

виконання функцій арифметичного і логічного оброблення значень динамічних рядів показників;

оброблення фактографічної інформації пакетами програм, які реалізують економіко-математичні методи і методи статистичного оброблення;

організацію видачі фактографічої інформації у вигляді уніфікованих таблиць і символьних графіків;

виконання функцій навчання користувача роботі з АБД;

виконання функцій адміністрування з АБД.

Програмні засоби КАБСД реалізуються у вигляді підсистем взаємодії з користувачами адміністрування, пошуку, вибору та оброблення даних, оформлення вихідних звітів.

Структура програмних засобів КАБСД. До складу програмних засобів входять чотири підсистеми:

підсистема взаємодії з користувачем (засоби формування запиту, сервісні засоби користувача, засоби навчання користувачів);

підсистема адміністрування БД (засоби ведення БД, засоби роботи з метаданими, засоби збирання статистики функціонування АБД);

підсистема пошуку та оброблення даних (засоби реалізації пошукових запитів оброблення та аналізу даних);

підсистема оформлення вихідних матеріалів (засоби генерації звітів, псевдографічні засоби).

Робота КАБСД ведеться з допомогою АРМ користувачів і АРМ адміністратора БД. Зважаючи на особливу важливість надійності зберігання і розповсюдження на комерційній основі статистичних матеріалів і даних, у КАБСД має бути забезпечено високу ступінь безпеки даних та авторизацію доступу до них. Процеси актуалізації, розширення, реорганізації та реструктуризації БД мають бути недоступні користувачеві й здійснюватися адміністрацією КАБСД.

Задачі адміністрування КАБСД можна поділити на організаційні та технічні. До організаційних задач належать:

розроблення технологічних процесів актуалізації, розширення, реорганізації, реструктуризації та відновлення БД;

стандартизація інтерфейсів між всіма компонентами системи;

повідомляння користувачів про зміни в базі даних;

організація навчання користувачів, підготовка рахунків за роботу з КАБСД;

контроль розрахунків з користувачами і т. д.

Задачами адміністрування КАБСД технічного характеру є:

забезпечення функціонування технічних засобів, супроводження СКБД та інших програмних засобів;

контроль за внесенням змін у фізичні структури даних;

регулювання експлуатаційних характеристик КАБСД;

ведення фонду службової інформації.

Підсистема адміністрування включає засоби ведення баз даних, засоби збирання та оброблення статистики функціонування КАБСД, засоби АРМ адміністратора, реалізовані на ПЕОМ. Засоби ведення баз даних реалізують функції: ґенерування і завантажування бази даних, актуалізації та розширення бази даних, реструктуризації та реорганізації даних та їх відновлювання.

Для оцінювання ефективності функціонування АБД необхідні дані про:

використання команд мови маніпулювання даними СКБД за запитами з метою вдосконалювання мови користувача;

частоту звертання до тих чи тих фізичних блоків даних;

час виконання тих чи тих елементарних операцій (пересилання, записування, зчитування з магнітних носіїв, арифметичних, логічних операцій і т. п.);

помилки, зроблені користувачем під час формування запиту.

Для підвищення ефективності роботи користувачів з КАБСД існує навчальна підсистема. З її допомогою користувачі набувають необхідних знань і навичок. Передбачаються ознайомлення їх з порядком роботи КАБСД, логічною структурою інформаційного фонду, вивчення мов користувачів, а також консультації щодо системи електронної пошти, методологічних питань обчислення показників динамічних рядів тощо.

Для зменшення витрачання часу і вартісних витрат і для підвищення зручності роботи користувача з КАБСД користувацький інтерфейс реалізується як підсистема.

Склад довідкової інформації для користувача КАБСД має особливе значення, оскільки саме вона дає змогу ефективно здійснювати процес навігації по базах даних. Роль інформаційного засобу навігації в КАБСД виконують директорії. Структура директорії КАБСД передбачає три рівні довідкової інформації.

На кожному рівні директорія описує всі його елементи, а також зв’язок з елементами наступного рівня. Наприклад, зв’язок розділів з базою даних, рубрик з розділами і т. д.

На верхньому рівні в директорії БД містяться короткі описи структур баз даних, збережуваної в базі даних інформації, їхніх розділів і кодів, а також способів одержання довідкової інформації по розділах БД.

Для КАБСД директорія на рівні розділу БД включає опис рубрик, а також короткий опис складу і структури статистичної інформації зберігається в них.

Директорії рубрик, які є для КАБСД нижнім рівнем, містять опис складу і структури динамічних рядів у даній рубриці, їхніх часових характеристик, періодичності, способів звертання до них.

Користувачеві надається можливість вибирати форми видачі директорій з кількох стандартних форм. Економічну ефективність і конкурентоспроможність комерційних АБД багато в чому визначає користувацький інтерфейс. Він забезпечує формування запитів користувачів на одержання довідкової інформації по АБД, на пошук і вибірку потрібних даних і текстових матеріалів, контроль коректності запитання (семантичний, логічний, синтаксичний), видачу інформації користувачеві для коригування неправильно складених запитів.

Припускається, що в даний час структура попиту на зовнішньому ринку на українську статистичну інформацію може бути задоволена в основному за рахунок фактографічної інформації. Тому основна увага приділятиметься проектуванню мови користувача для роботи з фактографічною базою даних КАБСД. Основними вимогами до мови користувача є: комфортність для користувача у процесі складання запитів, простота логіки, розвантаження мови за синтаксисом, непроцедурність, багатомовність, мінімальний обсяг службової інформації, яка видається користувачеві.

У мові програмування реалізація функцій пошуку, оброблення і видачі інформації передбачає й можливість помилки користувача у визначенні змісту та обсягу запитуваної інформації. Наприклад, користувач може зробити цілком коректне запитання, виконання якого системою спричинить видачу великої кількості інформації, з якої користувачеві необхідна лише якась частина. Щоб користувач уникнув таких витрат, функції пошуку і видачі даних технологічно відокремлені. Спочатку за запиту користувача видається повідомлення про кількість знайдених документів або динамічних рядів. Якщо ця кількість відповідає уявленню користувача про обсяг вибірки, він дає команду на видачу даних. У противному разі користувач має можливість у тому самому сеансі уточнити раніше сформульований запит.

Усю сукупність запитів користувачів до фактографічної бази даних можна умовно поділити на два види: запити на видання довідкової інформації по АБД; запити на пошук, оброблення і видання даних.

У загальному випадку в запиті на пошук і вибірку динамічного ряду зазначаються: код рубрики, код найменування показника, часова характеристика, ознаки кроку і території, можливі деталізовані ознаки.

Доцільно виділити такі групи запитів: за заданим найменуванням показника або кодом найменування і значеннями кодів кожної з його додаткових ознак вибирається конкретний динамічний ряд показників; за заданим найменуванням показника і значеннями кодів деяких з додаткових ознак виокремлюються групи динамічних рядів показників; за заданим найменуванням показника виокремлюється повна сукупність динамічних рядів показників, які містять усі значення додаткових ознак.

Уведений запит підлягає синтаксичному, логічному і семантичному контролю і, у разі відсутності в ньому помилок, інтерпретується відповідно до мови маніпулювання даними СКБД. Результати інтерпретації розміщуються у спеціальних системних таблицях, які використовуються на етапах пошуку, вибірки, оброблення і подання інформації.

У разі відсутності значень деталізуючих ознак у запиті визначаються значення відсутніх ознак із системних таблиць.

Результати пошуку (кількість знайдених динамічних рядів і масив адресних посилань на них) передаються в робочу область користувача. Користувачеві КАБСД видається повідомлення про кількість знайдених динамічних рядів і надається можливість уточнити запит. Якщо необхідності в уточненні запиту немає, організується вибирання даних у робочу область користувача. Одночасно з вибором значень динамічних рядів показників будується тимчасова шкала, згідно з якою розташовуються значення. Далі за кодами найменувань показників і додаткових ознак із каталогів вибираються їхні найменування. Уся інформація, яка видається, подається в робочій області користувача в уніфікованій формі.

Вихідні дані подаються як текстові документи, які містять таблиці, коментарі та аналітичні огляди до них, прес-бюлетені, динамічні ряди у вигляді уніфікованих таблиць, таблиць довільної структури або графіків у символьнографічній формі.