ТЕЗАУРУС

Категория :

Описание

ТЕЗАУРУС (греч. thesauros клад, сокровище) — словарь-справочник, в к-ром собраны термины, используемые в определенной предметной области, а также даны их смысловые связи. Примером Т. могут служить различного рода информационно-поисковые системы (см.), энциклопедические издания, в частности медицинские энциклопедии (см. Энциклопедии медицинские), и другие труды справочно-информационного характера.

Термином может быть отдельное слово или устойчивое словосочетание из двух и более слов. Смысловые связи делятся на иерархические (типа род — вид, часть — целое), синонимические и ассоциативные. Синонимия может быть абсолютной и условной. Условно синонимическими считаются термины, смысл к-рых частично совпадает или совпадает полностью с точки зрения части пользователей информационной системы. Ассоциативными связями являются связи типа процесс — продукт, причина — следствие, предмет — область применения и другие связи, отличные от иерархических и синонимических. Т. может содержать также краткие определения терминов, чаще в виде указания области применения в случае многозначных терминов (омонимов), напр, морфология (биология) и морфология (лингвистика).

Состав и структура Т. зависят от технологии обработки информации. В Т., используемом при ручном индексировании, выделены основные термины — дескрипторы (см.) и термины — синонимы этих дескрипторов, при к-рых имеются ссылки на соответствующий им дескриптор. С помощью индексатора из текста документа сначала выделяют основные термины (ключевые слова), определяющие его смысл. Затем с помощью Т. заменяют ключевые слова дескрипторами и т. о. формируют поисковый образ документа. При индексировании запроса в его поисковый образ могут быть добавлены видовые или ассоциативные дескрипторы. Родовые дескрипторы вводятся дополнительно в поисковый образ запроса только при получении отрицательного ответа на первоначальный запрос. При индексировании не рекомендуется использовать дескрипторы с очень широкими значениями.

Развитость Т. характеризуется отношением количества синонимов к общему числу терминов. В Т. с ручным индексированием, как правило, используется несколько систем терминов. Это — лексико-семантическая система и различные указатели (систематический указатель иерархических отношений и др.)- В лексико-семантической системе все термины расположены в алфавитном порядке. В систематическом указателе те же термины упорядочены по предметно-тематическому принципу. В указателе иерархических отношений дескрипторы сгруппированы в виде семейств, во главе каждого из к-рых стоит родовое понятие. В пер-мутационном указателе терминов для многословных терминов реализуется алфавитное упорядочение по каждому из значащих слов.

В системах с автоматическим индексированием каждый термин может быть записан в памяти машины один раз, а связи между терминами отображены с помощью адресных ссылок. В ряде совр. информацион-но-поисковых систем в память ЭВМ заносится полный текст документа или его реферат. Из текста автоматически выделяются все значащие слова (в памяти ЭВМ имеется список незначащих слов, включая предлоги, союзы и слова широкого смысла), по к-рым формируются инверсные массивы (см. Информационно-поисковая система), используемые для поиска при запросах. При автоматическом формировании поискового образа запроса (или поискового предписания) используется Т., хранящийся в памяти ЭВМ. При этом ключевые слова запроса автоматически дополняются синонимами и видовыми дескрипторами. Применяется также диалоговое формирование поискового образа запроса. Хранение в памяти ЭВМ полного текста реферата или документа позволяет по мере пополнения Т. реализовать поиск с большей полнотой, чем при хранении в памяти ЭВМ только поисковых образов документов.

Важное значение имеет задача пополнения Т. новыми терминами и новыми смысловыми связями. Оно может выполняться в ручном или в автоматизированном режимах на основе анализа новых документов и запросов. Окончательное установление смысловых связей в Т. осуществляется специалистом. При автоматическом индексировании возникают достаточно сложные лингвистические задачи. При этом в Т. должны храниться основы слов или же слова со всеми возможными окончаниями.

Т. в фактографических автоматизированных системах (см. Автоматизированная система управления), напр, таких, как система учета запасов лекарственных средств, учета кадров и т. п., отличается от Т. информационно-поисковой системы в области научной информации наличием упорядоченных списков терминов, каждый из к-рых содержит все текстовые значения нек-рого множества объектов или все значения одного признака объекта. Список может содержать названия стран (поставщиков лекарственных средств), перечень заболеваний, перечень видов упаковки и т. п. Наличие в памяти ЭВМ таких списков упрощает автоматическое индексирование и обеспечивает однозначный фактографический поиск и возможность обработки данных.

Библиография: Пшеничная JI. Э. Тезаурус в документальной ИПС, Киев, 1977; Шемакин Ю. И. Тезаурус в автоматизированных системах управления и обработки информации, М., 19 74; Schultz С. К. Thesaurus of information science terminology, N. Y., 1978.


Г. А. Шастова.