¿Qué es Gemini, el nuevo modelo de IA de Google que competirá contra ChatGPT?

Recientemente, Google presentó Gemini, “el modelo más capaz y general que hemos construido nunca”, además del más flexible, según indicó la compañía mediante un comunicado.

Este modelo ya se encuentra operativo a través de Bard, y pronto también estará disponible en Pixel 8 Pro y, si bien actualmente solo está en inglés, pronto se añadirán más idiomas.

De hecho, el Director ejecutivo de Google, Sundar Pichai, indicó que durante los próximos meses, Gemini también estará disponible en otros servicios como anuncios y el sistema de búsqueda del motor.

¿Qué es Gemini, el nuevo modelo de IA de Google?

Si leíste todo lo de arriba y aún no tienes muy claro qué es exactamente Gemini, es algo totalmente normal, ya que conceptos como “modelos de inteligencia artificial” no son algo del todo conocido para quienes no saben ya de antemano sobre este tipo de temas.

Según explica QuestionPro, estos son los componentes esenciales de los sistemas de Inteligencia Artificial y aprendizaje automático, puesto que son utilizados como una representación para hacer predicciones, tomar decisiones o realizar tareas específicas.

Dongee lo pone más simple: “son algoritmos y enfoques computaciones diseñados para similar y replicar habilidades cognitivas y de razonamiento humanas en máquinas y sistemas informáticos”.

Podemos decir entonces que un modelo es básicamente el cerebro de las inteligencias artificiales y lo que les permite aprender. En este caso, Google principalmente implementó Gemini en Bard, su “ChatGPT”.

Pero, ¿qué tiene de innovador Gemini?

Ya dejamos claro que es Gemini, pero sigue existiendo la duda principal: ¿qué tiene de nuevo y cómo podría competir cobra ChatGPT?

En su comunicado, Google utiliza un montón de tecnicismos para hacernos saber cuáles son las categorías de este modelo, pero también nos las explica de forma fácil de comprender: puede generalizar y comprender, operar y combinar a la perfección distintos tipos de información, como texto, código, audio, imagen y vídeo.

Así, Gemini es un todo en uno, pudiendo suplir de los distintos tipos de media en uno y no a través de modelos separados, tal como ChatGPT hace mediante DALL-E y Whisper, dos otros modelos que Open IA debió entrenar para imagen y audio, respectivamente.

Demis Hassabin, el Jefe ejecutivo de DeepMind (la unidad de Google que desarrolló Gemini), comparó este nuevo modelo con GPT-4 (con el que funciona ChatGPT) y si bien los resultados no muestran una diferencia muy grande entre ambos, de todas formas el de Google toma la delantera en todas las categorías, menos “HellaSwag”, siendo este el razonamiento de sentido común para tareas cotidianas.

De igual forma, el código de Gemini está escrito en un nuevo sistema llamado AlphaCode2, el que dice rendir un 85% mejor que sus competidores, por lo que en general es bastante más eficiente, habiendo sido además entregando por la propia unidad de procesamiento tensorial de la compañía.