Інформаційні системи і технології в статистиці (2003)

6.2. Інформаційні джерела і технологія їх використання для інформаційного наповнення КАБСД

Оцінка інформаційного середовища ґрунтується на аналізі застосовуваних у процесі оброблення структур даних і визначених ними інформаційних технологій — систем файлового оброблення та АБД.

Технологія файлового оброблення поширена у вигляді розв’язання окремих задач і комплексів задач на основі автоматизованих систем оброблення даних. Структури даних, які застосовуються в автоматизованих системах оброблення даних, належать здебільшого до лінійного типу. Ціла низка задач економічного характеру є задачами «прямого розрахунку», тому організація їх масивів базується на даних лінійної послідовної структури, у більшості випадків упорядкованій за певними значеннями ключових ознак. Така структура даних з позиції їх логічного перетворення є найпростішою.

Однак багато автоматизованих систем оброблення даних оперують з більш складною рядковою лінійною структурою даних, яка є різновидом спискової структури. Застосування спискових структур дає змогу уніфікувати процес кодування даних, полегшує організацію умовно-постійної інформації, скорочує дублювання даних у масивах, забезпечує виграш у часі за пошуку конкретних даних.

Обом типам названих структур притаманна така ознака: формат запису відомий наперед і твердо фіксований, що дає змогу розробити в кожному конкретному випадку засіб для конвертування у прийнятий формат даних КАБСД. Однак через універсальність цього підходу витрати на конвертування можуть бути значними.

Перспективнішими з цього погляду джерелами інформації можна вважати АБД, на основі яких досягається інтеграція інформаційної системи за рахунок однаковості організації даних на машинних носіях і щільності функціональних зв’язків задач через інформаційні масиви. У загальному випадку це означає заміну багатьох локальних масивів з лінійною структурою на недубльовані по елементах бази зі складною ієрархічною або мережевою структурою даних. Конвертування інформації з такого технологічного середовища є ефективнішим, особливо якщо цей процес у зв’язку з актуалізацією КАБСД є періодичним.

У разі використання закордонних баз даних рекомендується застосовувати Міжнародні автоматизовані каталоги, які містять близько 4 тис. БД, доступних через мережі ЕОМ. Технологічною основою міжнародної автоматизованої бази даних CVAD слугує інформаційно-пошукова система, основними пошуковими полями в якій є: ключове поле; поле AG — перелік АБД, які містять дану інформацію; поле PT-тип — тип інформації (текстова, цифрова, змішана); поле NT — умови доступу; поле AV — географія комплектації, ретроспектива, актуалізація і т. д.

Бази даних, які містять інформацію щодо фірм, поділяються на три категорії: із загальними даними стосовно фірм; інформацією про фінансовий стан фірм і з аналітичними даними щодо їхньої діяльності (інформація про нові продукти і послуги фірм, їхню контрактно-ліцензійну діяльність, створення дочірних і сумісних підприємств тощо).

До категорії баз даних, які містять загальні дані щодо фірм, належить більшість БД. У них, як правило, міститься така інформація: повне найменування фірми; рік заснування; поштова і телеграфна адреса, телетекс, телефакс, телефон; адреса в Internet; володарі фірми або материнська компанія; керівний склад фірми; банки, через які фірми здійснюють свої операції; галузь, до якої належить фірма; основні товари або види послуг; торгові марки або товарні знаки; країни, в які експортуються товари або де є торгові представництва; чисельність працівників; річний обсяг продажу; власний капітал; членство в торгових асоціаціях.

У БД цього типу пошук виконується за двома основними напрямами: за назвою компанії та за номенклатурою вироблюваних товарів або надаваних послуг. Перший вид пошуку не завдає труднощів. Другий, що передбачає одержання інформації щодо компаній в одній або кількох країнах, які займаються виробництвом тих або тих видів продукції, є певною мірою складніший, оскільки створювачі бази даних за індексування документів застосовуються частіше за все галузеву класифікацію, прийняту в їхній країні. Через це код продукції, який використовується для пошуку інформації, наприклад, по компаніях Великобританії, не може бути використаний під час пошуку інформації по компаніях США.

Слід зазначити, що поряд із цифровим кодом промислової класифікації є поле з текстовим описом коду. Тому можна проводити пошук по вільному тексту, оскільки інформація про коди не завжди доступна.

Типовим представником БД, які містять, крім установчих даних, повну інформацію про фінансовий стан фірми (а деякі й дані аналізу діяльності компанії), є DISCLOSURE. База даних DISCLOSURE — це повна фінансова інформація про 11 тис. компаній, які надають у Комісію з цінних паперів і бірж США річні звіти про фінансовий стан.

Документ у БД DISCLOSURE має 250 полів, які можна поділити на три групи: настановні відомості про компанію; текстова інформація довідкового характеру; дані, подані в табличній формі, які характеризують фінансове та економічне становище компанії (баланс фірми, звіт про прибутки і збитки) і дають змогу робити висновок про результати її господарської діяльності. У документі зазначаються обсяги продажу, витрати виробництва, прибуток та інші надходження засобів за фінансовий рік від різних джерел: чистий прибуток, амортизаційні відрахування, надходження від реалізації активів, збільшення довгострокової і короткострокової заборгованості, емісія акцій, субсидії і дотації.

До БД, котрі зберігають інформацію по компаніях, можна віднести бібліографічно-реферативні бази даних, у яких містяться статті із загальноекономічних і галузевих газет і журналів, інформаційних повідомлень. До найхарактерніших БД цього типу належить БД PROMT, у якій індексовано понад 2,5 тис. найменувань джерел інформації. Вона оновлюється щоденно і містить інформацію практично по всіх товарах, які виробляються у світі, технологіях, світових товарних ринках, галузях промисловості. Інформація охоплює такі аспекти: історія діяльності компанії, окремі показники фінансового становища фірми; контрольно-ліцензійна діяльність; дані про створення сумісних підприємств; відомості про продукти або послуги компанії; частка внутрішнього і міжнародного ринків; відомості про поглинання і злиття компаній; стратегія маркетингу; рекламна діяльність компанії; міжнародна діяльність.

Географію охоплення фірм у БД PROMT можна охарактеризувати так: 47 % — США, 24 % — Європа, 11 % — Південно-Східна Азія, Австралія та Океанія; 9 % — Канада і країни Латинської Америки, 5 % — Африка і Ближній Схід.

Додатково до БД PROMT звичайно використовують ще одну базу — BIS INFORMAT NEWSFILE, зміст документів у якій значною мірою аналогічний PROMT, але охоплює виключно країни Західної Європи.

Наявність численних джерел для ведення КАБСД спричинює потребу в досконалій технології одержання даних та їх перетворення у формати середовища КАБСД. Процес одержання інформації здійснюється шляхом реалізації запитів до джерел інформації, у тому числі до закордонних АБД через міжнародні мережі ЕОМ. Запити до закордонних джерел інформації реалізуються сеансами (тобто протягом певних відрізків часу), в яких вирізняють три стадії: приєднання до ресурсу, робота з ресурсом, від’єднання від ресурсу.

На першій стадії сеансу виконуються процедури встановлення логічного зв’язку між термінальною апаратурою і ресурсом, а також приєднання до АБД і далі до БД. Ці процедури вимагають закріплення за сеансом деяких апаратних, програмних засобів та інших ресурсів.

На другій стадії сеансу здійснюється перетворення інформаційних потоків, які передаються між окремими компонентами, і власне передавання інформації.

На останній стадії виконується розрив логічного з’єднання, а також звільнення закріплених за сеансом ресурсів. Протягом сеансу здійснюється контроль за роботою, а також збирання статистичної інформації про використання в сеансі тих або тих ресурсів.

Увесь процес роботи з ресурсом відображується у протоколі сеансу роботи. Порядок взаємодії із закордонними АБД аналогічний використовуваному у вітчизняній практиці та полягає в такому.

Кожній базі даних присвоюється своя чотирьохсимвольна мітка, яка збігається з її скороченою назвою.

Приєднання до необхідної БД здійснюється в такий спосіб:

ENTER DATA BASE NAME-: <мітка бази даних>

Під час робот з АБД застосовується, як правило, командна мова, кожна з команд якої може бути подана у вигляді

…<оператор> <параметри>

Пошук здійснюється з використанням команди ... SEARCH..(S) за допомогою пошукових термінів: термінів вільного тексту (ключових слів, власних імен і т. д.), кодів, номерів. Команда ...SEARCH може явно не задаватися (наприклад, 1-: statistics). При цьому пошук може проводитися: по полю (задається ключове слово або код); по ключовому слову або коду в усій інформаційній частині документа; по мітці поля.

Після одержання позитивних результатів пошуку виведення документів на екран здійснюється з допомогою команди …РRINT у потрібному для користувача форматі видачі.

Під час сеансу можна виконувати з’єднання з кількома БД, для чого використовується команда ...CHANGE.

Закінчення пошуку і виведення необхідної інформації здійснюється за допомогою команди від’єднання від системи ...OFF (…O).

Отже, інформація, яка може бути одержана із закордонних АБД, містить як інформаційні дані, так і службову й протокольну інформацію, яка не підлягає завантажуванню. Ця інформація має різну, відмінну від КАБСД, логічну структуру і не може бути прямо перенесена у вхідний формат КАБСД. Тому для наповнення КАБСД інформацією, одержаною у процесі реалізації запитів до закордонних АБД через міжнародні мережі, необхідно її конвертувати.

Конвертування — це три самостійних етапи:

погодження логічних структур;

власне конвертування і перекодування інформації;

перезапис інформації з технічного середовища ПЕОМ у середовище центральної ЕОМ.

Задача погодження логічних структур у КАБСД тісно пов’язана з варіантами організації інформації, одержаної із закордонних джерел. При цьому можливі два варіанти: створення спеціальної бази даних для наповнення інформацією із закордонних джерел зі своєю логічною структурою та об’єднання діючої бази даних КАБСД з інформацією із закордонних джерел. Кожний із цих варіантів має свої переваги і вади.

У разі першого варіанта, коли дані завантажуються в заново створювану БД, логічна структура документа повинна визначатися переліком полів з вибраних для завантаження закордонних баз даних за рахунок чого задача конвертування може бути суттєво спрощена. Логічна структура являтиме собою просту суму логічних структур відповідних баз даних. Якщо для наповнення використовується одна БД, то ця обставина не має суттєвого значення, а якщо кілька БД, то структура документа буде складною і незручною для користувача. Крім того, якщо процес наповнення відбувається послідовно, а номенклатура закордонних баз не визначена заздалегідь, то розширення логічної структури перетворюється в самостійну проблему, оскільки в такому разі ускладнюється логіка користувацького діалогу.

У разі другого варіанта логічна структура бази даних і логіка користувацького діалогу визначені вимогами КАБСД, що має кращу перевагу. Проте задача конвертування ускладнюється, оскільки має бути передбачена можливість подання полів вхідних записів з різних БД у відповідні за змістом і структурою поля документа КАБСД.

З метою погодження логічних структур необхідно сумісне використання кількох загальних полів. Таке погодження дає змогу виконувати фізичне злиття інформації з різною логічною структурою.