GenAI : Google accélère la cadence

Publié le 01/05/2024

Juste après le lancement de Gemini 1.0, une nouvelle version encore plus puissante de la GenAI de Google est déjà en phase de test. Le géant du web vient en effet de présenter Gemini 1.5, son prochain modèle d’IA multimodale, dont le moteur peut prendre en charge une quantité d’informations plus importante. Cette capacité supérieure lui permet de fournir des réponses plus précises aux requêtes qui lui seront adressées.

Modèles de langages natifs et multimodaux

Comme Gemini 1.0, Gemini 1.5 est également un modèle de langage natif et multimodal. Les deux outils sont ainsi capables de traiter des requêtes et générer des contenus sous différents formats (textes, images, vidéo, invites de code, audio). Pouvant fonctionner sur tous les supports numériques, la version Pro, actuellement en phase de test, est un modèle de taille moyenne optimisé. Ceci lui permet de s’adapter à un large éventail de tâches.

ImportantGrâce à son framework MoE, Gemini 1.5 peut ingérer et traiter d’énorme quantité de données. En outre, doté de la fonction de compréhension de contextes longs, cet outil permet aux utilisateurs de télécharger plusieurs pages d’informations dans l’invite et d’obtenir en retour une réponse claire et précise.

En effet, sa fenêtre contextuelle s’élève à 1,5 million de mots-clés , contre 32 000 de tokens pour Gemini 1.0.

Les quelques développeurs et entreprises clientes privilégiés qui ont la chance de tester la version Gemini 1.5 Pro peuvent disposer en ce moment d’une fenêtre contextuelle avec 1 million de mots-clés. Google a indiqué que

Ses experts travaillent toujours sur des optimisations pour améliorer l’expérience utilisateur.

OpenAI emboîte le pas à Google

Si Google semble avoir une longueur d’avance sur ses concurrents, ces derniers lui emboîtent déjà le pas. À l’instar d’ Open AI, qui se penche sur la mise au point de son modèle ChatGPT 5, et d’un autre modèle d’IA baptisé Sora . D’après l’entreprise,

Sora est capable de générer des scènes de vidéo complexes avec plusieurs personnages.

L’utilisateur aura droit à des détails précis et différents mouvements spécifiques. Pour sa part, GPT5 sera multimodal et offrira une fenêtre contextuelle avec plus de tokens que GPT4.

Cette course effrénée profitera sûrement à tout expert IT en quête de missions, notamment ceux qui ont des compétences avancées en IA.