Inteligencia artificial generativa

Arriba: Un clasificador de imágenes, un ejemplo de una red neuronal entrenada con un objetivo discriminativo. Abajo: Un modelo de texto a imagen, un ejemplo de una red entrenada con un objetivo generativo.

Las imágenes generadas por IA se han vuelto mucho más avanzadas.

La inteligencia artificial generativa (o IA generativa) es un tipo de sistema de inteligencia artificial multimodal capaz de generar texto, imágenes u otros medios en respuesta a comandos.^[1]^[2] Los modelos de IA generativa aprenden los patrones y la estructura de sus datos de entrenamiento de entrada y luego generan nuevos datos que tienen características similares.^[3]^[4]

Los sistemas de IA generativa notables incluyen bots conversacionales y sistemas de arte de inteligencia artificial.^[5]

En su origen, la IA generativa surgió con el propósito de simular los procesos de pensamiento humano. Hoy en día, IA generativa tiene aplicaciones potenciales en una amplia gama de industrias.^[6]^[7]^[8]

Historia[editar | editar código]

Desde su fundación, el campo del aprendizaje automático ha utilizado modelos estadísticos, incluidos modelos generativos, para modelar y predecir datos. A partir de finales de la década de 2000, el surgimiento del aprendizaje profundo impulsó el progreso y la investigación en el procesamiento de imágenes y videos, el análisis de texto, el reconocimiento de voz y otras tareas. Sin embargo, la mayoría de las redes neuronales profundas se entrenaron como modelos discriminativos que realizan tareas de clasificación, como la clasificación de imágenes basada en redes neuronales convolucionales.

En 2014, avances como el autocodificador variacional y la red generativa adversativa produjeron las primeras redes neuronales profundas prácticas capaces de aprender modelos generativos, en lugar de discriminativos, de datos complejos como imágenes. Estos modelos generativos profundos fueron los primeros capaces de generar no solo etiquetas de clase para imágenes, sino también imágenes completas.^[9]

En 2017, la red Transformador permitió avances en los modelos generativos, lo que llevó al primer transformador generativo preentrenado en 2018.^[10] A esto le siguió en 2019 GPT-2, que demostró la capacidad de generalizar sin supervisión a muchas tareas diferentes como modelo fundacional.^[11]

En 2021, el lanzamiento de DALL-E, un modelo generativo de píxeles basado en transformadores, seguido de Midjourney y Stable Diffusion marcó el surgimiento del arte práctico de inteligencia artificial de alta calidad a partir de indicaciones de lenguaje natural. La inteligencia artificial generativa empezó a ser ampliamente conocida con el lanzamiento de ChatGPT en noviembre de 2022.

Modelos fundacionales[editar | editar código]

Los modelos fundacionales son sistemas de IA entrenados con grandes volúmenes de datos generalistas, lo que les permite adaptarse a múltiples tareas sin necesidad de un entrenamiento específico para cada una. Su naturaleza versátil les permite ser reutilizados en una amplia variedad de dominios, como la medicina, el derecho, la educación o el entretenimiento.

Ejemplos destacados:

GPT (OpenAI): Utilizado para procesamiento de lenguaje natural, traducción, redacción y más.
DALL·E (OpenAI): Generación de imágenes a partir de descripciones textuales.
Claude (Anthropic): Resúmenes, análisis complejos, redacción, código.
Gemini (Google DeepMind): Multimodal (texto, imagen, vídeo)
LLaMA (Meta): Modelo de lenguaje de código abierto diseñado para investigación y desarrollo.
Grok (xAI): Integrado con X (Twitter), enfoque en temas actuales y humor.
Copilot (Microsoft + OpenAI): Integrado en Windows, Office y Edge.

Modalidades[editar | editar código]

Un sistema de IA generativa se construye aplicando aprendizaje automático no supervisado o autosupervisado a un conjunto de datos. Las capacidades de un sistema de IA generativa dependen de la modalidad o el tipo de conjunto de datos utilizado.

La IA generativa puede ser unimodal o multimodal; los sistemas unimodales toman solo un tipo de entrada, mientras que los sistemas multimodales pueden tomar más de un tipo de entrada (por ejemplo, texto e imágenes).^[12]

Texto: Los sistemas de IA generativa entrenados en palabras o tokens de palabras incluyen GPT-3, LaMDA, LLaMA, BLOOM, GPT-4 y otros. Son capaces de procesamiento de lenguaje natural, traducción automática y generación de lenguaje natural y se pueden utilizar como modelos básicos para otras tareas.^[13] Los conjuntos de datos incluyen BookCorpus, Wikipedia y otros.
Código: además del texto en lenguaje natural, los modelos de lenguaje grandes se pueden entrenar en texto de lenguaje de programación, lo que les permite generar código fuente para nuevos programas de computadora.
Imágenes: Sistemas de IA generativa entrenados en conjuntos de imágenes con subtítulos. Se utilizan comúnmente para la generación de texto a imagen y la transferencia a estilo neuronal.
Moléculas: los sistemas de IA generativa se pueden entrenar en secuencias de aminoácidos o representaciones moleculares como SMILES que representan ADN o proteínas. Estos sistemas, como AlphaFold, se utilizan para la predicción de la estructura de proteínas y el descubrimiento de fármacos.
Música: los sistemas de IA generativa se pueden entrenar en las formas de onda de audio de la música grabada junto con anotaciones de texto, para generar nuevas muestras musicales basadas en descripciones de texto como "una melodía de violín relajante respaldada por un riff de guitarra distorsionado".
Video: la IA generativa entrenada en video anotado puede generar videoclips coherentes temporalmente.
Multimodal: se puede construir un sistema de IA generativa a partir de múltiples modelos generativos, o un modelo entrenado en múltiples tipos de datos.

Aplicaciones de la IAG[editar | editar código]

La IAG está siendo utilizada en diversos sectores productivos y sociales. Entre sus principales aplicaciones destacan:

Educación: Personalización del aprendizaje, generación automática de contenidos educativos, retroalimentación instantánea y simulaciones.
Medicina: Generación de imágenes médicas sintéticas, redacción de informes clínicos, apoyo en diagnósticos y descubrimiento de fármacos.
Entretenimiento y medios: Creación de música, guiones, videojuegos, ilustraciones y contenido audiovisual.
Marketing y diseño: Redacción de textos publicitarios, diseño de logotipos y campañas personalizadas.
Programación: Asistentes de código como GitHub Copilot ayudan a generar funciones, detectar errores y sugerir mejoras.
Negocios: Automatización de tareas administrativas, análisis de datos, generación de informes y atención al cliente.

Elaboración de órdenes para la IA generativa[editar | editar código]

En el contexto de la IA un Prompts son instrucciones elaboradas por los usuarios que le brindamos a un sistema para que este genere una respuesta. Estos prompts son una forma de guiar el comportamiento del modelo de la IA para obtener el resultado deseado.^[14] Estas órdenes están destinadas para máquinas, y ellas responden automáticamente a pedidos simples y complejos. Pueden ser elaborados tanto como textos o como audios.^[15]

Uso de los verbos para la creación de Prompts[editar | editar código]

Al momento de redactar consignas es muy importante que le prestemos atención a los verbos, ya que si queremos que la IA nos devuelva una respuesta útil debemos tener en cuenta la utilización de dichos verbos. Puede pasar estar usando un verbo cuando en realidad debería ir otro, por ello debemos tener en cuenta cuáles están dentro de un mismo conjunto.^[14] A continuación algunos ejemplos.^[16]


Categorías y Procesos Cognitivos	Nombres Alternativos	Definiciones
Reconocer	Identificar	Confirmar que la información que se presenta explícitamente ya se encuentra en la memoria a largo plazo.
Rememorar	Reproducir	Extraer información de la memoria a largo plazo a partir de algún estímulo.
Interpretar	Aclarar, parafrasear, representar, traducir	Cambiar de una forma de representación a otra.
Ejemplificar	Ilustrar	Proponer ejemplos que ilustren y muestren una idea o principio.
Clasificar	Categorizar, agrupar	Determinar que algo pertenece a una categoría.
Resumir	Abstraer, generalizar	Extraer las ideas o los datos principales de una información.
Inferirir	Concluir, extrapolar, predecir	Sacar conclusiones a partir de la información presentada.
Comparar	Contrastar, mapear, relacionar	Detectar correspondencias entre dos ideas, objetos o acontecimientos
Explicar	Modelar	Construir modelos causa-efectos

Véase también[editar | editar código]

Aprendizaje automático

Referencias[editar | editar código]

↑ Griffith, Erin; Metz, Cade (27 de enero de 2023). «Anthropic Said to Be Closing In on $300 Million in New A.I. Funding». The New York Times. Consultado el 14 de marzo de 2023.
↑ Lanxon, Nate; Bass, Dina; Davalos, Jackie (10 de marzo de 2023). «A Cheat Sheet to AI Buzzwords and Their Meanings». Bloomberg News. Consultado el 14 de marzo de 2023.
↑ Pasick, Adam (27 de marzo de 2023). «Artificial Intelligence Glossary: Neural Networks and Other Terms Explained». The New York Times (en en-US). ISSN 0362-4331. Consultado el 22 de abril de 2023.
↑ Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (16 de junio de 2016). «Generative models». OpenAI.
↑ Roose, Kevin (21 de octubre de 2022). «A Coming-Out Party for Generative A.I., Silicon Valley's New Craze». The New York Times. Consultado el 14 de marzo de 2023.
↑ «Don't fear an AI-induced jobs apocalypse just yet». The Economist. 6 de marzo de 2023. Consultado el 14 de marzo de 2023.
↑ Harreis, H.; Koullias, T.; Roberts, Roger. «Generative AI: Unlocking the future of fashion».
↑ «How Generative AI Can Augment Human Creativity». Harvard Business Review. 16 de junio de 2023. ISSN 0017-8012. Consultado el 20 de junio de 2023.
↑ Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. p. 197. ISBN 978-3-030-93157-5. S2CID 246946335. doi:10.1007/978-3-030-93158-2.
↑ «finetune-transformer-lm». GitHub. Consultado el 19 de mayo de 2023.
↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya; others (2019). «Language models are unsupervised multitask learners». OpenAI blog 1 (8): 9.
↑ https://www.marktechpost.com/2023/03/21/a-history-of-generative-ai-from-gan-to-gpt-4/
↑ Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J et ál. (2021-08-16). «On the opportunities and risks of foundation models». arXiv:2108.07258 [cs.LG].
↑ ^14,0 ^14,1 «¿Cómo abordar la inteligencia artificial en el aula?».
↑ Monsalve, C. «Aportes didácticos para interactuar con herramientas digitales enriquecidas con IA». Aulas TIC-INFD.
↑ Ruiz Martin, Hector (15 de diciembre de 2021). ¿Cómo aprendemos? Una aproximación científica al aprendizaje y la enseñanza. Editorial Graó. p. 104.

[nytimes-1] Griffith, Erin; Metz, Cade (27 de enero de 2023). «Anthropic Said to Be Closing In on $300 Million in New A.I. Funding». The New York Times. Consultado el 14 de marzo de 2023.

[bloomberg-2] Lanxon, Nate; Bass, Dina; Davalos, Jackie (10 de marzo de 2023). «A Cheat Sheet to AI Buzzwords and Their Meanings». Bloomberg News. Consultado el 14 de marzo de 2023.

[3] Pasick, Adam (27 de marzo de 2023). «Artificial Intelligence Glossary: Neural Networks and Other Terms Explained». The New York Times (en en-US). ISSN 0362-4331. Consultado el 22 de abril de 2023.

[4] Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (16 de junio de 2016). «Generative models». OpenAI.

[5] Roose, Kevin (21 de octubre de 2022). «A Coming-Out Party for Generative A.I., Silicon Valley's New Craze». The New York Times. Consultado el 14 de marzo de 2023.

[economist2-6] «Don't fear an AI-induced jobs apocalypse just yet». The Economist. 6 de marzo de 2023. Consultado el 14 de marzo de 2023.

[mckinsey-7] Harreis, H.; Koullias, T.; Roberts, Roger. «Generative AI: Unlocking the future of fashion».

[8] «How Generative AI Can Augment Human Creativity». Harvard Business Review. 16 de junio de 2023. ISSN 0017-8012. Consultado el 20 de junio de 2023.

[tomczak2022-9] Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. p. 197. ISBN 978-3-030-93157-5. S2CID 246946335. doi:10.1007/978-3-030-93158-2.

[10] «finetune-transformer-lm». GitHub. Consultado el 19 de mayo de 2023.

[11] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya; others (2019). «Language models are unsupervised multitask learners». OpenAI blog 1 (8): 9.

[12] ttps://www.marktechpost.com/2023/03/21/a-history-of-generative-ai-from-gan-to-gpt-4/

[FoundationModels-13] Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J et ál. (2021-08-16). «On the opportunities and risks of foundation models». arXiv:2108.07258 [cs.LG].

[:0-14] 14,0 ^14,1 «¿Cómo abordar la inteligencia artificial en el aula?».

[15] Monsalve, C. «Aportes didácticos para interactuar con herramientas digitales enriquecidas con IA». Aulas TIC-INFD.

[16] Ruiz Martin, Hector (15 de diciembre de 2021). ¿Cómo aprendemos? Una aproximación científica al aprendizaje y la enseñanza. Editorial Graó. p. 104.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]