viernes, 7 de diciembre de 2012

Para recuperar tu información, ¡indiza!



Desde el momento en el que disponemos de un fondo documental que satisface nuestras necesidades, debemos organizar y representar los documentos por medio de unas fichas o registros para que podamos acceder de nuevo a ellos en el futuro. Este proceso se denomina análisis documental y lo integran dos procesos:
  • El análisis formal: se ocupa de definir el documento en base a sus características formales y externas (autor, título, lugar de edición, editor, año de publicación, número de páginas…). Evidentemente, para que la información pueda ser intercambiable entre distintas instituciones, debemos seguir un tupo de pautas en el proceso de análisis de la forma. Estas normas vienen determinadas por el ISBD Review Group o la IFLA entre otros.
  • El análisis de contenido: nos lleva a ordenar el material del que disponemos en base a la temática en la que se inscribe. Cabe destacar la importancia de la CDU (Clasificación Decimal Universal), que crea diez campos de conocimiento en los que todos los documentos deben encajar, sea en uno o en otro (filosofía, religión, ciencias sociales, deporte…).
La indización es una de las técnicas del análisis documental que guía al usuario en el proceso de búsqueda o recuperación de contenidos, pues proporciona una serie de palabras clave, concepto ya conocido para nosotros, que facilitan el rastreo del documento. Estas palabras clave, también denominadas descriptores, son sencillamente unos vocablos que actúan como resumen. Es decir, son los mecanismos de descripción y ubicación de los documentos.

A la hora de realizar una buena tarea de indización, debemos tener en cuenta los principales factores que inflúen en ella.

Cualidades de la indización
 
Son las siguientes:

Especificidad:
Nos referimos al nivel de concreción que deben tener los descriptores en relación con el tema del documento. Así un trabajo sobre impuestos concretos como el IRPF o el IVA deberá ser analizado por dichos términos, siendo demasiado genérico la utilización del concepto “sistema fiscal” ¿Hasta qué punto debe ser específica una indización?. Hasta el mismo que el tema del documento lo exija. Esto no significa que en algunos casos, y siempre que las necesidades de información de los usuarios así lo recomienden, podamos añadir un término genérico. Un trabajo referido a un ámbito geográfico muy concreto puede interesar a especialistas de su región, provincia o país. La investigación sobre la población de Écija, debe llevar los términos de Sevilla (Provincia) e incluso Andalucía, para facilitar la recuperación. Sin embargo hay que procurar no caer en la redundancia. Una buena especificidad se conseguirá además en la recuperación combinando los términos.

Exhaustividad:
Relacionado con el concepto anterior, la exahustividad implica sobre todo un número alto de descriptores. Es difícil valorar este aspecto ya que, aunque una gran cantidad de entradas puede facilitar la recuperación de un documento, muchas veces este factor entra en contradicción con la pertinencia del documento hallado.

Pertinencia:
Es el elemento fundamental a tener en cuenta para una buena indización. La pertinencia de un descriptor representa su grado de adecuación al concepto expresado en el texto original. Un buen descriptor debe ser siempre un punto preciso y fiel de acceso y responder a las expectativas de búsqueda del usuario. El indizador debe siempre ponerse en el lugar del especialista que cuando busca por ese término que hemos utilizado va a encontrarse con el documento que se está analizando. Imaginemos un artículo que trata sobre el modo de vida de los indios araucas y en el que incluímos un descriptor como sociedad. El que busca información sobre la sociedad latinoamericana, ¿busca realmente este tipo de trabajos? ¿O le interesan realmente otros más generales?

Coherencia:
A pesar del uso de un buen vocabulario controlado, la indización como todo trabajo intelectual tiene una alta dosis de subjetivismo. Dos o más personas pueden disentir de cuáles son los temas importantes de un trabajo o de los descriptores que deben representarlos. Incluso, una misma persona puede tener criterios diferentes en distintos momentos. La coherencia 4 en la indización se refiere al grado de concordancia entre indizadores (coherencia interindizador) o de uno mismo (coherencia intraindizador). Una medida de coherencia puede hallarse a traves del promedio de descriptores comunes. La coherencia depende del número de descriptores asignados, el vocabulario utilizado, la terminología del documento y en general a las capacidades de conceptualización de los indizadores

Ejemplo de indización de un artículo de una revista

Nº Registro: 402005 
 
Autor: Moisset de Españés, Luis

Título del artículo: La mora en el Código Civil de Paraguay de 1987

Lugar de trabajo: Acad. Nal. Derecho de Córdoba, Argentina

ISSN: 0034-7922

Título de la revista: Revista de Derecho Privado

Datos fuente: 1999, 83 (12): 827-847, 10 Ref.

Tipo de documento: AR

Lengua: ES

Clasificación: 250270;850420 (Derecho de obligaciones);(Derecho de los Países latinoamericanos)

Descriptores: Mora;Incumplimiento contractual;Incumplimiento de obligaciones;Obligación a plazo;Mora del acreedor;Derecho comparado

Identificadores: García Goyena, Florencio

Topónimos: Paraguay

Legislación: Código Civil PAR. Art. 424

Período Histórico:
1987

Tipos de indización

La indización puede plantearse desde dos perspectivas:
  1. Puede presentarse como un proceso libre, en el que los términos conformen una lista abierta. Estaríamos ante un caso de indización libre, pues.
  2.  Por otro lado, podemos encontrarnos también ante una indización controlada, generada a partir de una lista o conjunto cerrado de términos.
Los lenguajes y vocabularios controlados utilizados en la indización han evolucionado desde los primeros lenguajes clasificatorios hasta los actuales tesauros especializados.

Las clasificaciones universales, (CDU, LC, UNESCO) resultan poco pertinentes como único lenguaje de recuperación en bases de datos. Parten de una división del saber hoy superada por la especificidad actual y los “puntos de vista” particulares de las disciplinas científicas. Su estructura jerárquica impide la combinación de los múltiples aspectos de una investigación, y no permite recoger temas muy específicos o novedosos.

Las clasificaciones especializadas, elaboradas para una disciplina o un sistema documental específico, tienen sin embargo utilidad como complementarias a los descriptores. Permiten englobar en un marco amplio todos aquellos documentos de una base de datos a los efectos de una acotación posterior por descriptores. Posibilitan además organizar subproductos de la base de datos, como bibliografías impresas.

Los encabezamientos de materia utilizados tradicionalmente en las bibliotecas como descriptores del contenido de los documentos tienen también una serie de problemas a la hora de la recuperación. Concebidos para la elaboración de catálogos impresos, los mayores inconvenientes en el uso de encabezamientos vienen dados por el exceso de precoordinación de los términos y las normas de presentación en los índices. Dichas normas, excesivamente complejas, dan como resultado una falta de criterios homogéneos a la hora de escoger los términos, convirtiendo este lenguaje en un sistema excesivamente “encorsetado” y rígido que impide las combinaciones en la recuperación.

El tesauro es el vocabulario controlado más eficaz para el análisis y la recuperación de la documentación especializada. Sus ventajas fundamentales son: la especificidad de sus términos y sus posibilidades combinatorias en la recuperación. En él encontraremos los términos preferentes de uso, así como los sinónimos rechazados; conceptos más amplios o más específicos de la misma familia semántica y aquellos otros que deben acompañarles en la indización por sus relaciones contextuales. Estos últimos dan un valor añadido a los tesauros frente a otro tipo de vocabularios de indización ya que permiten abordar el análisis del texto desde múltiples puntos de vista, incluso desde el plano contextual de las asociaciones de ideas que cobran sentido dentro de una disciplina o investigación.

La listas de autoridades o de identificadores son vocabularios alfabéticos independientes que permiten normalizar términos tales como nombres propios de personas, instituciones, títulos de obras, nombres geográficos o cualquier otro nombre necesario en la indización y que por múltiples razones no es posible incluir en el tesauro. No olvidemos que según la especialidad de la base de datos, necesitaremos diferentes campos complementarios de contenido.

Las ontologías y las taxonomías son otras dos formas de organización de los conceptos, y no debemos confundirlas, ni entre ellas, ni con los tesauros.

Entendemos por ontología la representación de la conceptualización de un determinado campo del conocimiento mediante estructuras semánticas. Definen los conceptos de forma específica describiendo las propiedades y relaciones de cada concepto y facilitan la comunicación entre los seres humanos y las máquinas.
Las relaciones de clase-subclase son la base de taxonomías y tesauros, de aquí la tendencia a confundirlos. Ciertamente, las ontologías pueden considerarse lenguajes documentales con distintos niveles de estructura, pero a diferencia del tesauro tradicional, en primer lugar, están elaboradas con una sintaxis comprensible para los ordenadores (relación con la web semántica). Además, las ontologías contemplan un conjunto más amplio de relaciones que las de clase y subclase, ya que en principio, estas relaciones no están cerradas. Por tanto, una ontología permite mayor riqueza en la definición de sus conceptos y sus relaciones que un tesauro.

Estaríamos en este caso ante un tesauro


Estaríamos en este caso ante una ontología
  
Estaríamos ante una taxonomía



Fuentes consultadas:
PEDRAZA-JIMÉNEZ, Rafael. CODINA, Lluís. ROVIRA, Cristòfol. “Web semántica y ontologías en el procesamiento de la información documental”. [en línea].

RUBIO, María. “El análisis documental: indización y resumen en bases de datos especializadas”. [en línea].

Ecured (España). [en línea]: indización documental. <http://www.ecured.cu/index.php/Indizaci%C3%B3n_documental> [Consulta: 7 diciembre 2012]