Unidad R093. Lenguajes de interrogación para buscadores
En esta unidad, el alumno hará un recorrido por los lenguajes de interrogación, centrándose principalmente en las diversas variedades de la búsqueda booleana.
Los lenguajes de interrogación son lenguajes utilizados para la recuperación de información en bases de datos. Su papel es transformar una necesidad de información de un usuario, en una fórmula que un robot sea capaz de interpretar y producir resultados en un motor de búsqueda o en una base de datos. Para ello, combinará los diferentes operadores booleanos existentes (AND, OR y NOT).
Los operadores booleanos se utilizan en las búsquedas que se realizan en los sistemas de recuperación automatizada de la información, para combinar palabras y relacionar conceptos, con el objetivo de localizar los registros que contienen los términos coincidentes en uno de los campos especificados o en todos los campos. Podemos encontrar los siguientes:
- AND: recupera registros que contienen todas las palabras especificadas.
- OR: recupera registros que contienen por lo menos una de los términos especificados.
- NOT: elimina de los resultados de búsqueda los registros que contengan la palabra o frase especificada.
En los sistemas de información se utilizan estos operadores booleanos para representar las necesidades de información de los usuarios, bajo esta fórmula general:
T1 Operador T2 = {dv}
*T1 y T2: términos o palabras claves
*{dv}: documentos recuperados
Tipos de búsquedas
En esta unidad veremos también los diferentes tipos de búsqueda que podemos hacer en la mayoría de los buscadores y bases de datos documentales, que en líneas generales son:
- Simple: busca la cadena de caracteres.
- Frase: busca la cadena de caracteres tal y como aparece entre comillas.
- Booleana simple: sólo utiliza uno de los operadores booleanos.
- Booleana compleja: combina tres o más palabras clave con dos o más operadores booleanos.
Además, existen diversas variaciones, que también se pueden combinar con las búsquedas anteriores:
- Genérica: busca la cadena de caracteres en cualquier lugar del documento, en documentos de cualquier fecha, en todos los formatos, etc.
- Acotada: busca la cadena de caracteres en sitios específicos, según se delimite por campos, fechas, formatos, idiomas, dominios, etc.
Veremos la gran variedad de posibilidades que tienen los buscadores y bases de datos en la recuperación de información, y los problemas que surgen en el procesamiento de algunas de las búsquedas.
Asimismo, estudiaremos las ventajas e inconvenientes que suponen las búsquedas con operadores booleanos.
Para saber más, consultar:
Bibliografía
- Belkin, N. J.; Oddy, R. & Brooks, H. (1982). "ASK for Information Retrieval". Journal of Documentation , 38, 6171 (part 1) & 145164 (part 2).
- Dodge, Berny; Albany University Library. (2007). "Motores de Búsqueda y Álgebra Booleana". Eduteca.
- Google (2007). Conceptos básicos de la búsqueda en Google. (Acceso: https://www.google.es/support/bin/static.py?page=searchguides.html&ctx=basics).
- Tramullas, J. (19972000). "Lenguajes de interrogación y operadores". Introducción a la documática.