RAG (Retrieval-Augmented Generation) en HAL149

Para responder a algunas consultas técnicas sobre el proceso que seguimos en HAL149 para entrenar modelos. El sistema que venimos utilizando de indexación (embeddings) de documentos está basado en el término más difundido ahora de RAG.

El procedimiento siempre es similar:

Vectorización de PDFs:

Toma los PDFs con la información del cliente.
Utiliza un modelo de embedding para convertir el texto en vectores.

Almacenamiento en servicios de BD vectoriales (eg Pinecone):

Pinecone es un servicio de base de datos vectorial.
Almacena los vectores generados etiquetados con sus metadatos.

Proceso de consulta:

Cuando se hace una pregunta al modelo, esta se vectoriza.
Se buscan los vectores más similares en Pinecone mediante el método de los cosenos.
Se recupera la información relevante.

Generación de respuesta:

El modelo de lenguaje recibe la pregunta original y la información recuperada.
Genera una respuesta basada en ambas entradas.
El modelo trabaja así con un “metaprompt” de información aumentada, además de la consulta original del cliente.

Este proceso es RAG porque sigue estos términos:

Retrieval (Recuperación): La información relevante se recupera de una fuente externa (Pinecone) en el momento de la consulta.
Augmented (Aumentado): La consulta original se “aumenta” con la información recuperada.
Generation (Generación): El modelo genera una respuesta basada en la consulta aumentada.

Las ventajas de este enfoque incluyen:

Actualización fácil: Puede añadir o modificar PDFs en Pinecone sin reentrenar el modelo.
Precisión: Las respuestas se basan en la información más reciente y relevante.
Escalabilidad: Puede manejar grandes volúmenes de información de clientes.
Trazabilidad: Puede rastrear qué fuentes de información se utilizaron para generar cada respuesta.

Por lo tanto si, estamos utilizando la misma tecnologia que muchas aplicaciones online que permiten “chatear” con documentos pdf y cosas similares.

En el ámbito de los usuarios particulares Bing Copilot usa RAG construyendo os resultados de la búsqueda. Proporciona referencias para todas sus respuestas con enlaces directos a los sitios web de los que lee. Y sería relativamente sencillo construir asistentes personales que utilice toda la documentación de un portátil para interaccionar con ella de esta forma.

GraphRAG es una versión improvisada de Standard RAG para la recuperación a partir de documentos externos. En este vídeo se comparan ambos marcos con un párrafo de texto de ejemplo y algunas instrucciones para comprobar cuál funciona mejor.

Blog

RAG (Retrieval-Augmented Generation) en HAL149

Luis G de la Fuente

Posts by Luis G de la Fuente

Do you think it’s a waste of time to build an alternative to a big SaaS?

Custom GPTs are a step in the opposite direction to AGI

Tech progress stagnant since the 70s ?

Comments by Luis G de la Fuente

RAG (Retrieval-Augmented Generation) en HAL149

Octavio Leoni

AI in the Workplace: Boosting Productivity or Just Hype?

Luis G de la Fuente

Posts by Luis G de la Fuente

Do you think it’s a waste of time to build an alternative to a big SaaS?

Custom GPTs are a step in the opposite direction to AGI

Tech progress stagnant since the 70s ?

Comments by Luis G de la Fuente