{"id":2792,"date":"2024-07-19T22:32:11","date_gmt":"2024-07-20T01:32:11","guid":{"rendered":"https:\/\/muycritico.com.ar\/web\/?p=2792"},"modified":"2026-01-18T13:14:22","modified_gmt":"2026-01-18T16:14:22","slug":"la-ia-ha-logrado-que-podamos-hablar-con-personajes-famosos-que-ya-han-muerto","status":"publish","type":"post","link":"https:\/\/muycritico.com.ar\/web\/?p=2792","title":{"rendered":"LA \u201cIA\u201d HA LOGRADO QUE PODAMOS HABLAR CON PERSONAJES FAMOSOS QUE YA HAN MUERTO"},"content":{"rendered":"<p><strong>El divulgador de Inteligencia Artificial, Jon Hern\u00e1ndez explica c\u00f3mo es que los avances en este campo de la tecnolog\u00eda han logrado que personajes que ya han muerto puedan hablar e interactuar con cualquier usuario al d\u00eda de hoy como si estuvieran vivos. Se trata de las LLM, tecnolog\u00edas muy bien explicadas en un informe presentado por AMAZON<\/strong><\/p>\n<p><!--more--><\/p>\n<p>Los modelos de lenguaje de gran tama\u00f1o (LLM) son modelos de aprendizaje profundo muy grandes que se preentrenan con grandes cantidades de datos. El transformador subyacente es un conjunto de redes neuronales que consta de un codificador y un decodificador con capacidades de autoatenci\u00f3n. El codificador y el decodificador extraen significados de una secuencia de texto y comprenden las relaciones entre las palabras y las frases que contiene.<\/p>\n<p>Los transformadores LLM son capaces de entrenarse sin supervisi\u00f3n, aunque una explicaci\u00f3n m\u00e1s precisa es que los transformadores llevan a cabo un autoaprendizaje. Es a trav\u00e9s de este proceso que los transformadores aprenden a entender la gram\u00e1tica, los idiomas y los conocimientos b\u00e1sicos.<\/p>\n<p>A diferencia de las redes neuronales recurrentes (RNN) anteriores que procesaban las entradas de forma secuencial, los transformadores procesan secuencias enteras en paralelo. Esto permite a los cient\u00edficos de datos utilizar las GPU para entrenar LLM basados en transformadores, lo que reduce significativamente el tiempo de entrenamiento.<\/p>\n<p>La arquitectura de las redes neuronales del transformador permite el uso de modelos muy grandes, a menudo con cientos de miles de millones de par\u00e1metros. Estos modelos a gran escala pueden incorporar cantidades masivas de datos, a menudo de Internet, pero tambi\u00e9n de fuentes como Common Crawl, que comprende m\u00e1s de 50 000 millones de p\u00e1ginas web, y Wikipedia, que tiene aproximadamente 57 millones de p\u00e1ginas.<\/p>\n<p><iframe loading=\"lazy\" title=\"Dr Know - Intelligenza Artificiale\" width=\"696\" height=\"392\" src=\"https:\/\/www.youtube.com\/embed\/1_JXchszDjY?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/p>\n<p><strong>\u00bfPor qu\u00e9 son importantes los modelos de lenguaje de gran tama\u00f1o?<\/strong><\/p>\n<p>Los modelos de lenguaje de gran tama\u00f1o son incre\u00edblemente flexibles. Un modelo puede realizar tareas completamente diferentes, como responder preguntas, resumir documentos, traducir idiomas y completar oraciones. Los LLM tienen el potencial de alterar la creaci\u00f3n de contenido y la forma en que las personas utilizan los motores de b\u00fasqueda y los asistentes virtuales.<\/p>\n<p>Si bien no son perfectos, los LLM est\u00e1n demostrando una notable capacidad para hacer predicciones basadas en un n\u00famero relativamente peque\u00f1o de indicaciones o entradas. Los LLM se pueden utilizar en la IA (inteligencia artificial) generativa para producir contenido basado en indicaciones de entrada en lenguaje humano.<\/p>\n<p>Los LLM son grandes, muy grandes. Pueden considerar miles de millones de par\u00e1metros y tienen muchos usos posibles. A continuaci\u00f3n, se indican varios ejemplos:<\/p>\n<p>El modelo GPT-3 de OpenAI tiene 175 000 millones de par\u00e1metros. Su primo, ChatGPT, puede identificar patrones a partir de datos y generar resultados naturales y legibles. Si bien no sabemos el tama\u00f1o de Claude 2, puede aceptar entradas con hasta 100 000 tokens en cada indicaci\u00f3n, lo que significa que puede funcionar en cientos de p\u00e1ginas de documentaci\u00f3n t\u00e9cnica o, incluso, en un libro completo.<\/p>\n<p>El modelo Jurassic-1 de AI21 Labs tiene 178 000 millones de par\u00e1metros y un vocabulario simb\u00f3lico de partes de 250 000 palabras y capacidades de conversaci\u00f3n similares.<\/p>\n<p>El modelo Command de Cohere tiene capacidades similares y puede funcionar en m\u00e1s de 100 idiomas diferentes.<\/p>\n<p>El Paradigm de LightOn ofrece modelos b\u00e1sicos con capacidades declaradas que superan las del GPT-3. Todos estos LLM vienen con las API que permiten a los desarrolladores crear aplicaciones \u00fanicas de IA generativa.<\/p>\n<p><iframe loading=\"lazy\" title=\"LA \u201cIA\u201d HA LOGRADO QUE PODAMOS HABLAR CON PERSONAJES FAMOSOS QUE YA HAN MUERTO\" width=\"696\" height=\"392\" src=\"https:\/\/www.youtube.com\/embed\/REsyckELmB0?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/p>\n<p><strong>\u00bfC\u00f3mo funcionan los modelos de lenguaje de gran tama\u00f1o?<\/strong><\/p>\n<p>Un factor clave en el funcionamiento de los LLM es la forma en que representan las palabras. Las formas anteriores de machine learning utilizaban una tabla num\u00e9rica para representar cada palabra. Sin embargo, esta forma de representaci\u00f3n no pod\u00eda reconocer las relaciones entre las palabras, como las palabras con significados similares. Esta limitaci\u00f3n se super\u00f3 mediante el uso de vectores multidimensionales, tambi\u00e9n denominados incrustaciones de palabras, para representar palabras de modo que las palabras con significados contextuales similares u otras relaciones est\u00e9n cerca unas de otras en el espacio vectorial.<\/p>\n<p>Al utilizar incrustaciones de palabras, los transformadores pueden preprocesar el texto como representaciones num\u00e9ricas a trav\u00e9s del codificador y comprender el contexto de palabras y frases con significados similares, as\u00ed como otras relaciones entre palabras, como las partes del discurso. Entonces es posible que los LLM apliquen este conocimiento del idioma a trav\u00e9s del decodificador para producir un resultado \u00fanico.<\/p>\n<p><strong>\u00bfQu\u00e9 son las aplicaciones de modelos de lenguaje de gran tama\u00f1o?<\/strong><\/p>\n<p>Hay muchas aplicaciones pr\u00e1cticas para los LLM.<\/p>\n<p>Redacci\u00f3n de textos publicitarios<\/p>\n<p>Adem\u00e1s de GPT-3 y ChatGPT, Claude, Llama 2, Cohere Command y Jurassic pueden escribir copias originales. AI21 Wordspice sugiere cambios en las oraciones originales para mejorar el estilo y la voz.<\/p>\n<p><strong>Respuesta a la base de conocimientos<\/strong><\/p>\n<p>La t\u00e9cnica, que a menudo se denomina procesamiento del lenguaje natural intensivo en conocimiento (KI-NLP), se refiere a los LLM que pueden responder a preguntas espec\u00edficas a partir de la informaci\u00f3n en los archivos digitales. Un ejemplo es la capacidad de AI21 Studio Playground para responder a preguntas de conocimiento general.<\/p>\n<p><strong>Clasificaci\u00f3n de textos<\/strong><\/p>\n<p>Mediante la agrupaci\u00f3n en cl\u00fasteres, los LLM pueden clasificar textos con significados o sentimientos similares. Los usos incluyen medir la opini\u00f3n de los clientes, determinar la relaci\u00f3n entre los textos y buscar documentos.<\/p>\n<p><strong>Generaci\u00f3n de c\u00f3digo<\/strong><\/p>\n<p>Los LLM dominan la generaci\u00f3n de c\u00f3digo a partir de indicaciones en lenguaje natural. Con Amazon Q Developer se puede programar en varios lenguajes de programaci\u00f3n, como Python, JavaScript y Ruby, entre otros. Otras aplicaciones de codificaci\u00f3n incluyen la creaci\u00f3n de consultas SQL, la escritura de comandos shell y el dise\u00f1o de sitios web.<\/p>\n<p><strong>Generaci\u00f3n de texto<\/strong><\/p>\n<p>Al igual que la generaci\u00f3n de c\u00f3digo, la generaci\u00f3n de texto puede completar oraciones incompletas, escribir la documentaci\u00f3n del producto o, como Alexa Create, escribir un cuento infantil corto.<\/p>\n<p><strong>\u00bfC\u00f3mo se entrenan los modelos de lenguaje de gran tama\u00f1o?<\/strong><\/p>\n<p>Las redes neuronales basadas en transformadores son muy grandes. Estas redes contienen varios nodos y capas. Cada nodo de una capa tiene conexiones con todos los nodos de la capa subsiguiente, cada uno de los cuales tiene un peso y un sesgo. Los pesos y los sesgos, junto con las incrustaciones, se conocen como par\u00e1metros del modelo. Las grandes redes neuronales basadas en transformadores pueden tener miles y miles de millones de par\u00e1metros. El tama\u00f1o del modelo generalmente se determina mediante una relaci\u00f3n emp\u00edrica entre el tama\u00f1o del modelo, la cantidad de par\u00e1metros y el tama\u00f1o de los datos de entrenamiento.<\/p>\n<p>El entrenamiento se lleva a cabo mediante un gran corpus de datos de alta calidad. Durante el entrenamiento, el modelo ajusta, de forma iterativa, los valores de los par\u00e1metros hasta que predice correctamente el siguiente token a partir de la secuencia anterior de tokens de entrada. Lo hace mediante t\u00e9cnicas de aprendizaje aut\u00f3nomo que ense\u00f1an al modelo a ajustar los par\u00e1metros para maximizar la probabilidad de los siguientes tokens en los ejemplos de entrenamiento.<\/p>\n<p>Una vez entrenados, los LLM se pueden adaptar f\u00e1cilmente para realizar m\u00faltiples tareas mediante conjuntos relativamente peque\u00f1os de datos supervisados, un proceso que se conoce como ajuste fino.<\/p>\n<p><strong>Existen tres modelos de aprendizaje comunes:<\/strong><\/p>\n<p>Aprendizaje de disparo cero: los LLM b\u00e1sicos pueden responder a una amplia gama de solicitudes sin entrenamiento expl\u00edcito, a menudo a trav\u00e9s de indicaciones, aunque la precisi\u00f3n de las respuestas var\u00eda.<\/p>\n<p>Aprendizaje de pocos disparos: al proporcionar algunos ejemplos de entrenamiento relevantes, el rendimiento del modelo fundacional mejora de manera significativa en esa \u00e1rea espec\u00edfica.<\/p>\n<p>Ajuste fino: se trata de una extensi\u00f3n del aprendizaje de pocos disparos en la que los cient\u00edficos de datos entrenan un modelo fundacional para ajustar sus par\u00e1metros con datos adicionales relevantes para la aplicaci\u00f3n espec\u00edfica.<\/p>\n<p><strong>\u00bfCu\u00e1l es el futuro de los LLM?<\/strong><\/p>\n<p>La introducci\u00f3n de modelos de lenguaje de gran tama\u00f1o, como ChatGPT, Claude 2 y Llama 2, que pueden responder preguntas y generar texto, apunta a interesantes posibilidades en el futuro. De forma lenta pero segura, los LLM est\u00e1n logrando un rendimiento similar al humano. El \u00e9xito inmediato de estos LLM demuestra un gran inter\u00e9s en los LLM de tipo rob\u00f3tico que emulan y, en algunos contextos, superan al cerebro humano. A continuaci\u00f3n, se mencionan algunas reflexiones sobre el futuro de los LLM:<\/p>\n<p><strong>Mayores capacidades<\/strong><\/p>\n<p>Por impresionantes que sean, el nivel tecnol\u00f3gico actual no es perfecto y los LLM no son infalibles. Sin embargo, las versiones m\u00e1s recientes mejorar\u00e1n la precisi\u00f3n y las capacidades a medida que los desarrolladores aprendan a mejorar su rendimiento y, al mismo tiempo, reducir los sesgos y eliminar las respuestas incorrectas.<\/p>\n<p><strong>Entrenamiento audiovisual<\/strong><\/p>\n<p>Si bien los desarrolladores entrenan a la mayor\u00eda de los LLM con texto, algunos han empezado a entrenar modelos con entrada de video y audio. Este tipo de entrenamiento deber\u00eda conducir a un desarrollo de modelos m\u00e1s r\u00e1pido y abrir nuevas posibilidades en t\u00e9rminos de uso de LLM para veh\u00edculos aut\u00f3nomos.<\/p>\n<p><strong>Transformaci\u00f3n del lugar de trabajo<\/strong><\/p>\n<p>Los LLM son un factor disruptivo que cambiar\u00e1 el lugar de trabajo. Es probable que los LLM reduzcan las tareas mon\u00f3tonas y repetitivas de la misma manera que lo hicieron los robots con las tareas de fabricaci\u00f3n repetitivas. Las posibilidades incluyen tareas administrativas repetitivas, chatbots de servicio al cliente y redacci\u00f3n automatizada y simple de textos publicitarios.<\/p>\n<p><strong>IA conversacional<\/strong><\/p>\n<p>Sin duda, los LLM mejorar\u00e1n el rendimiento de los asistentes virtuales automatizados como Alexa, Google Assistant y Siri. Podr\u00e1n interpretar mejor la intenci\u00f3n del usuario y responder a comandos sofisticados.<\/p>\n<p><strong>\u00bfC\u00f3mo puede ayudar AWS con los LLM?<\/strong><\/p>\n<p>AWS ofrece varias posibilidades para los desarrolladores de modelos de lenguaje de gran tama\u00f1o. Amazon Bedrock es la forma m\u00e1s f\u00e1cil de crear y escalar aplicaciones de IA generativa con modelos de lenguaje de gran tama\u00f1o (LLM). Amazon Bedrock es un servicio totalmente administrado que permite que los LLM de Amazon y de las principales startups de IA est\u00e9n disponibles a trav\u00e9s de una API, de modo que pueda elegir entre varios LLM para encontrar el que mejor se adapte a su caso de uso.<\/p>\n<p>Amazon SageMaker JumpStart es un centro de machine learning con modelos fundacionales, algoritmos integrados y soluciones de ML preintegradas que puede implementar con unos pocos clics. Con SageMaker JumpStart puede acceder a modelos previamente entrenados, incluidos los modelos fundacionales, para realizar tareas como el resumen de art\u00edculos y la generaci\u00f3n de im\u00e1genes. Los modelos preentrenados se pueden personalizar completamente para su caso de uso con sus datos, y puede implementarlos f\u00e1cilmente en producci\u00f3n con la interfaz de usuario o el SDK.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El divulgador de Inteligencia Artificial, Jon Hern\u00e1ndez explica c\u00f3mo es que los avances en este campo de la tecnolog\u00eda han logrado que personajes que ya han muerto puedan hablar e interactuar con cualquier usuario al d\u00eda de hoy como si estuvieran vivos. Se trata de las LLM, tecnolog\u00edas muy bien explicadas en un informe presentado [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":2793,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[15],"tags":[522,872],"class_list":["post-2792","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecno","tag-jon-hernandez","tag-victor-sacca"],"_links":{"self":[{"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/posts\/2792","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2792"}],"version-history":[{"count":2,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/posts\/2792\/revisions"}],"predecessor-version":[{"id":2801,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/posts\/2792\/revisions\/2801"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=\/wp\/v2\/media\/2793"}],"wp:attachment":[{"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2792"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2792"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/muycritico.com.ar\/web\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2792"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}