Una vez expuesto el análisis documental en su faceta de descripción
del contenido, pasamos a ver los lenguajes documentales utilizados para llevar
a cabo esta tarea.
● Definición
Según Blanca Gil, el lenguaje documental es un “sistema artificial de
signos normalizados que facilitan la representación formalizada del contenido
de los documentos para permitir la recuperación manual o automática”.
● Características
El lenguaje documental es utilizado tanto por el profesional de la
información durante el tratamiento documental, como por el usuario para
describir sus necesidades de información y realizar
Los atributos fundamentales que todo lenguaje documental debe
tener son la Exhaustividad y la Especificidad.
Los fenómenos que deben evitarse en un lenguaje documental son:
- Ruido: documentos que sin haber sido
solicitados son recuperados en una búsqueda documental.
- Silencio: documentos existentes en el fondo
documental que siendo relevantes para la búsqueda no son recuperados.
- Redundancia: el lenguaje debe regirse por el
principio de entropía, es decir, expresar el mayor significado
posible con el menor número de términos.
- Ambigüedad: el lenguaje documental ha de ser
unívoco y preciso, de modo que se evite la multiplicidad de sentidos que tienen
las palabras y signos del lenguaje corriente.
- Sinonimia: se da cuando un solo concepto está
representado por varios significantes. Es un accidente lingüístico muy habitual
que debe ser controlado eligiendo un solo término que englobe a todos.
- Polisemia: supone el caso inverso a
● Tipos
Existen diversos criterios para establecer la tipología de los
lenguajes documentales. Los más extendidos son:
-
Según
el control:
o Libres: los lenguajes libres se van generando a posteriori del proceso de
indización y son: las listas de descriptores libres o palabras clave.
o Controlados: son la mayoría de los lenguajes
documentales, presentan un vocabulario previamente elaborado: son las
clasificaciones, los encabezamientos de materia y los tesauros.
-
Según
la coordinación:
o Precoordinados: los términos se combinan con
anterioridad al tratamiento documental. Son lenguajes a priori, que están
orientados mayormente a la clasificación.
o Postcoordinados: los términos se combinan en el momento
de la búsqueda o de la recuperación de
-
Según
la estructura:
o Lenguajes de estructura jerárquica: presentan una estructura arborescente
en la que cada concepto depende de uno superior. Es el caso de las distintas clasificaciones,
como por ejemplo la CDU.
o Lenguajes de estructura combinatoria: los términos se relacionan con otros,
permitiendo gran cantidad de combinaciones entre ellos. A este esquema
responden por ejemplo los tesauros y las clasificaciones alfabéticas.
-
Según
su campo de alcance:
o Índices generales: pretenden recoger todo el saber humano.
o Índices especializados: restringidos a un campo del
conocimiento.
● Listas de encabezamientos de materia (LEM)
Es un lenguaje precoordinado, de estructura combinatoria que consiste
en listas alfabéticas de palabras capaces de representar los temas de un
documento.
Las listas se componen de encabezamientos y subencabezamientos.
El encabezamiento intenta condensar el tema sobre el que trata el documento. El
subencabezamiento puede acompañar al encabezamiento para precisar o delimitar
el sentido de
A su vez, los encabezamientos pueden ser simples o compuestos.
El encabezamiento simple expresa la materia con una sola palabra y el
encabezamiento compuesto expresa el tema del documento mediante dos o más
palabras.
Los términos que componen las listas de encabezamiento se relacionan
entre sí a través de referencias. Por
ejemplo, se usa la expresión “véase”
para remitir de un término no aceptado a uno aceptado.
Para asignar correctamente las materias a un documento, deberemos
seguir los siguientes principios:
- Principio
de economía: evitar dar más de
3 entradas a un documento. Las obras sin tema definido no llevan materia.
- Principio
de especificidad: el
término escogido debe representar esa materia concreta, eligiendo la más
específica frente a la más general.
- Principio
lingüístico: uso del idioma
del centro de información para las listas.
- Principio
de uniformidad: cada materia debe
ser denominada siempre de la misma manera, huyendo de la ambigüedad y la
polisemia.
- Principio
de uso: los términos deben establecerse en
función de los usos terminológicos más habituales en el centro de trabajo y de
las necesidades de los usuarios.
Como último aspecto de las LEM, citaremos
● Sistemas de clasificación
Un sistema de clasificación es un conjunto ordenado de conceptos que
se presentan distribuidos sistemáticamente en clases conformando una estructura
jerárquica. A cada documento se le asigna la materia mediante
Existen varios tipos de sistemas de clasificación por su contenido:
- Enciclopédicos: abarcan todas las ramas del saber. El
más difundido y utilizado en España es
- Especializados: profundizan en campos específicos del
conocimiento, por lo que los términos utilizados corresponden a un área
temática en particular. Algunas de las más conocidas clasificaciones de este
tipo son la de
- Facetados: están estructurados por materias y se
descomponen en facetas y estas a su vez en subfacetas.
LA CDU
Como decimos, la CDU es la clasificación
sistemática más difundida en España, aunque por supuesto no la única utilizada.
Este sistema enumera el conocimiento en
10 grandes grupos, y siguiendo el principio de subordinación lógica, cada uno
de estos grupos puede subdividirse a su vez, y así sucesivamente descendiendo
en el nivel jerárquico.
Es una clasificación decimal, puesto que los números se
contemplan como si fueran fracciones decimales, de manera que cuanto más largo
es el número, más específica es la materia.
De vocación universal y enciclopédica, la CDU se compone de
tablas principales, tablas auxiliares comunes y especiales, y un índice
alfabético.
Por último en cuanto a clasificaciones se refiere, señalar que muchos
centros tienen ya diseñados sus propios sistemas para clasificar sus recursos
de Internet. En este sentido, existen distintas herramientas a nivel
internacional, como el MARC21 for Classification
Data. Asimismo, se están desarrollando importantes iniciativas de
normalización al respecto, la más destacada es
● Tesauros
Lenguaje documental controlado, postcoordinado, de estructura
combinatoria, y de contenido especializado que presenta un vocabulario
estructurado y las relaciones semánticas de cada uno de sus términos, llamados descriptores. Los no descriptores son
los términos no aceptados, que apuntarán a los términos aceptados.
Los términos que componen un tesauro se pueden estructurar de varias
formas dentro del mismo tesauro. Citamos las más comunes:
- Índice
alfabético de descriptores y
no descriptores: Dentro de este índice, las relaciones que pueden darse entre
los términos son las siguientes:
o Relaciones de equivalencia: controlan la sinonimia del lenguaje
natural.
Todos los términos equivalentes (no descriptores) apuntan al descriptor
correspondiente mediante
o Relaciones de jerarquía: expresan la relación de superioridad o
inferioridad entre los conceptos mediante las expresiones TG (término genérico) y TE
(término específico).
o Relaciones de asociación: la relación entre los términos es
recíproca, los descriptores aparecen asociados porque las materias que
representan están ligadas conceptualmente. La relación se expresa mediante
- Índice
sistemático: contiene los
descriptores estructurados en función de las jerarquías establecidas en el
tesauro. Ofrece las “familias” de términos, lo que facilita la obtención de una
visión de conjunto de la información que contiene el tesauro.
- Índice
permutado: Además de las formas de presentación
analizadas anteriormente, el tesauro suele traer un índice permutado o índice
KWIC. Este recoge los descriptores y no descriptores ordenados alfabéticamente,
aunque su particularidad reside en que
recoge también todos los elementos de los términos compuestos, para facilitar
la búsqueda por la segunda parte de cualquier sintagma.
Aunque cada tesauro tiene sus características físicas y estructurales,
se tiende a que los descriptores se diferencien del resto del texto mediante la
tipografía negrita. Además, los
descriptores suelen ser sustantivos,
los nombres contables van en plural y
los incontables en singular.
Para acabar con los tesauros, diremos que son herramientas vivas, que deben ser
mantenidas y actualizadas periódicamente
para cumplir su labor con eficacia.