Indice Trozos de Palabras


([N2] Esfero) #1

Hola, hoy leyendo la base de conocimiento de velneo, me llamo la atención este apartado del funcionamiento del índice de trozos de palabras, y como me dejo un poco despistado, se lo pongo aquí para que lo lean y opinen al respecto, por que su funcionamiento es al menos desde mi punto de vista es peculiar, si no extraño.
Cuando yo pienso en trozos de palabras, al menos en mi mente, lo que pienso es en que el índice va ha buscar el trozo de palabra que yo escriba “vel”, “veln”, “velneo”, pero el índice no realiza así la búsqueda por lo que puede dar lugar a resultados altamente inesperados, ojo siempre bajo mi punto de vista.

Y como mi punto de vista puede estar terriblemente equivocado, espero sus comentarios para contrastarlos con mi punto de vista y así entender mejor el comportamiento de este índice.

Funcionamiento Indice por trozos de palabras


([N1] vgegeo) #2

Yo tambien daba por hecho que el funcionamiento era como dices.


([N2] ramiro) #3

Buenas:

¿Se llama realmente Trozos de Palabras?

Pues en ese caso la denominación es errónea porque SIEMPRE (desde la versión anterior, V6, es decir, desde hace más de 15 años) lo que hace ese indice es preparar TRIOS de letras consecutivas de los textos a indexar. Con mi nombre (RAMIRO) construiría RAM, AMI, MIR y IRO y esos son los datos indexados y usables para la búsqueda.

Yo enseño a los usuarios el comportamiento y lo documento en los textos (ver imagen)

Saludos. Ramiro



([N3] pacosatu) #4

Hola Esfero.

Lo que ocurre es que cuando Velneo habla de Índice por palabras o trozos, muchos pensamos en las búsquedas que podemos hacer en una base de datos documental y realmente no es así.

Los Índices por palabras o trozos son simples índices en los que se guarda un puntero por cada palabra o trozo (en realidad terna) que tengamos guardada en la tabla correspondiente.

En el caso de los trozos, Velneo descompone el texto (convertido a alfa40) en todas las ternas posibles e indexa estas ternas, es decir, guarda las parejas terna->puntero en el índice.

Cuando buscamos un trozo de texto, por ejemplo “modelo”, no tenemos más remedio que buscar todas las ternas posibles (mod ode del elo) ya que es lo único que se ha guardado en el índice. Y ¿cuál es el resultado?, pues precisamente aquellos registros que contienen todas y cada una de las ternas.

Lo mismo ocurre con el índice de palabras, aunque en ese caso podemos discernir entre los registros que contienen todas o solo algunas palabras.

No es un mecanismo estrafalario, es simplemente la consecuencia de que si indexamos ternas tendremos que buscar ternas.
Es cierto que en alguna búsqueda concreta puede despistar al usuario novato, pero es un sistema bastante potente a falta de una verdadera búsqueda documental.

Saludos
Paco Satué