Snapdragon 8 Gen 3 : les belles promesses de l'IA générative sur smartphone

Le Snapdragon 8 Gen 3, la nouvelle puce mobile haut de gamme de Qualcomm, inaugure l'arrivée d'IA génératives tournant localement, sur un smartphone, sans passer par le cloud. Avec la promesse d'une meilleure protection des données privées.

Le lancement de la nouvelle puce phare des smartphones de 2024 fin octobre 2023 par Qualcomm, le Snapdragon 8 Gen 3, est l'occasion de voir arriver un nouvel élément dans la narration des usages grand public de l'IA : la protection de la vie privée. Si, par le passé, la plupart des présentations de puces haut de gamme – Apple inclus – consistait à annoncer plus de puissance, graphique ou autre, ou bien promettre monts et merveilles en autonomie, le Snapdragon 8 Gen 3 a d'autres arguments en plus dans sa valise. Qui commence tout de même par un indicateur de performances : capable d'exécuter quelque 45 TOPS selon Qualcomm – soit 45 000 milliards d'opérations IA par seconde –, cette puce de pointe profite de ce déluge de puissance conjuguée (lire plus loin) pour réaliser une petite merveille : être capable d'exécuter des modèles d'IA complexes localement, c'est-à-dire sur un appareil, sans aide externe. Une petite révolution qui promet deux avantages majeurs : une réduction de la latence et et de la consommation d'énergie côté serveur, et une meilleure protection des données privées des utilisateurs privée, l'exécution locale des IA évitant d'avoir à faire mouliner nos données personnelles par les géants du Net. Du moins, en théorie…

IA génératives : le problème des données personnelles

Ces modèles, vous en avez entendu parler, notamment avec la fièvre des IA générative qui a frappé le monde début 2023 : ChatGPT, MidJourney, DALL-E et autre Bard. Des programmes capables de générer des pans entiers de codes, d'écrire une structure de lettre de motivation ou de créer un tableau façon Vermeer avec quelques mots clés. Dans la fournaise des supercalculateurs bardés de GPU, de puissants modèles sont nés et ont envahi le cloud… En entraînant avec eux de nombreuses questions, toutes légitimes. Les premières à avoir émergé et à commencer à envahir les tribunaux sont des problèmes de droits d'auteurs, les géants de type OpenAI ayant, apparemment, entraîné leurs IA sur des fichiers protégés par le droit d'auteur – ce que des artistes toujours en exercice, n'ont évidemment pas raté… Ni apprécié !

Mais du côté du grand public, un autre problème se pose : qu'est-ce que les serveurs font de nos requêtes ? Enregistrent-ils des bouts de nos vies, des informations commerciales ou confidentielles, quand nous leur demandons de générer un texte ou une image ? Et ces assistants personnels, bien lovés dans le cloud et qui ratissent nos agendas et nos mails pour nous préparer des alertes, que font-ils de nos données eux aussi ? Sont-ils piratables ?

Face à ces risques et failles, un double mécanisme est en train de se mettre en place : l'émergence de modèles moins complexes d'un côté, et la montée en puissance des calculs IA du côté des puces. Deux courants qui autorisent l'arrivée d'une nouvelle vague d'IA génératives capables de travailler non pas dans le brouillard du cloud, mais dans la paume de notre main. Mais comme nous le verrons, la grandeur d'âme n'est pas l'unique moteur dans la démarche des industriels…

Intelligence artificielle : d'énormes besoins en calcul

Par le passé, le NPU (Neural Processing Unit en anglais, ou puce d'accélération de réseaux de neurones) était présenté comme l'unique puce d'intelligence artificielle. Cela n'a jamais été totalement le cas – les calculs IA sont distribués sur le CPU, le GPU ou le NPU selon leur nature – mais c'est devenu parfaitement faux en 2023. Désormais, d'autres puces comme le modem, le processeur d'image ou le processeur en charge des capteurs ont leurs propres unités de calcul IA (tenseurs ou autres).

Dans le cas de la puissance maximale IA de 45 TOPS annoncée par Qualcomm pour le Snapdragon 8 Gen 3, il faut bien comprendre qu'il s'agit d'une puissance conjuguée à la fois du CPU, du GPU et du NPU. Outre leurs natures différentes – réduction du bruit en communication, floutage, etc. –, les algorithmes IA sont de plus en plus complexes et peuvent faire appel à plusieurs types de processeurs de calcul pendant leur exécution.

Si le couplage de ces puces permet de développer plus de puissance globale, un autre élément permet l'exécution de modèles aussi larges et performants : la simplification d'une partie des calculs. Par le passé, les calculs IA se devaient d'être très précis et ils étaient effectués sur des entiers de grande complexité. Au fur et mesure, les ingénieurs et autres développeurs ont réussi à concevoir des modèles faisant appel à des niveaux de précision moindre en entraînant des IA à améliorer les calculs a posteriori. La dernière tendance a permis de réduire ce niveau de précision à Int4 (4 bits), au lieu de 8 voire 16 bits.

Si cela est un détail pour vous, c'est la panacée pour les processeurs, qui voient les temps de calcul réduire de manière exponentielle quand cette précision diminue. Couplée aux progressions permanentes de la puissance des processeurs, cela permet, fin 2023, à un industriel comme Qualcomm de lancer une puce dégageant moins de 5 W de prendre en charge des modèles complexes de plus de 10 milliards de paramètres. Ou comment mettre la puissance d'un ChatGPT (light) dans la paume de votre main !

IA génératives locales : des modèles plus simples et plus personnalisables

Le bénéfice premier de l'exécution de modèles IA dans les smartphones est la latence. Souvent submergés de requêtes, les ChatGPT, MidJourney et autres Dall-E imposent des files d'attente, des limites de nombre de requêtes, etc. Tout en mettant en avant des abonnements pour rentabiliser leurs serveurs. Si les modèles pris en charge par les terminaux personnels – PC compris – sont plus simplifiés, ils ont déjà l'avantage de ne pas dépendre d'une chaîne réseau ni d'un ordre de priorité. Ainsi, Qualcomm promet des générations d'images en l'espace de moins d'une seconde quand il en faut parfois plusieurs dizaines quand on tape dans un serveur distant comme on le fait avec les IA en ligne.

L'autre bénéfice, moins visible et pourtant plus critique, est celui d'une meilleure protection de la vie privée. Si, pour l'heure, aucun scandale n'a entaché les OpenAI et consorts, il n'empêche que la somme de données potentiellement sensibles qui ont transité sur leurs serveurs sont énormes. De ChatGPT à Microsoft Copilot, toutes ces IA sont exécutées sur de puissants ordinateurs distants, dans le cloud. Or, comme le dit l'expression, "Il n'y a pas de cloud : il s'agit juste de l'ordinateur de quelque d'autre". Et si l'automatisation a beaucoup amusé le grand public, elle a aussi et surtout enflammé les professionnels, certaines entreprises s'étant même ruées sur les abonnements à Chat-GPT conjugués au recrutement d'ingénieurs de saisie capables d'élaborer rapidement des consignes (prompts) pertinents et efficaces (les prompt engineers), et se débarrasser ainsi de certains postes hautement automatisables…

Or, envoyer une requête du type "dessine un chat aux allures de James Bond perdu dans la toundra dans le style de Piero della Francesca", il en va autrement pour l'envoi de données clients vers le cloud afin de générer un tableau Excel. Ou laisser une IA "brouter" vos données personnelles pour améliorer votre assistant personnel.

C'est là que des systèmes comme LLaMA (le modèle linguistique de Meta, la maison mère de Facebook et Instagram notamment) change la donne. Ce LLM allégé permet la conception de modèles plus faciles à exécuter par de petites machines. En allégeant les modèles – soit en réduisant leur précision, soit en les spécialisant –, l'industrie est en train d'accoucher d'IA désormais exécutables sur des puces mobiles. Cette plus grande légèreté couplée à la possibilité d'une exécution locale devrait favoriser l'émergence de modèles IA plus personnalisables et sûrs. Car le supplément de protection de vie privée que cela implique permet de mouliner, sans supervision extérieure, de nourrir des petites IA broutant votre agenda, vos mails, vos photos pour générer des actions – suggestions, rappels emails, etc. Outre le fait que ces IA locales n'éclipseront jamais les IA dans le cloud – un supercalculateur a "légèrement" plus de puissance que votre smartphone ! –, cette évolution n'est pas uniquement l'amende honorable d'une industrie qui voudrait se racheter d'avoir siphonné vos données. Il s'agit aussi d'une question de… facture électrique.

IA locale : limiter la facture énergétique

L'industrie des technologies est assez cartésienne. Et, comme vous, elle doit payer ses factures d'électricité tous les mois. Or, les tarifs de l'énergie ont connu de sacrées montagnes russes ces deux dernières années. Et toute réduction de la facture est la bienvenue : pourquoi faire tourner un cœur de processeur Intel Xeon ou un gros GPU Nvidia pour générer deux paragraphes de texte sur un serveur quand cette tâche peut être exécutée sur une puce basse consommation comme le sont les SoC (system on a chip, puce tout-en-un) de smartphones ?

Vous noterez bien que nous avons employé le terme de "limiter" et non pas "réduire". Contrairement aux rêves des technophiles béats, le déport d'une partie des calculs du cloud (donc des serveurs) vers "l'edge", c'est-à-dire les terminaux en bout de course, ne devrait pas réduire les factures électriques, mais ralentir leur augmentation. D'une part, les IA les plus évoluées seront toujours exécutées dans le cloud, autant pour une raison de puissance de calcul que pour des raisons de mémoire – taille des modèles, etc. Ensuite, ce déport concerne uniquement l'exécution des modèles établis. Or, la course entre les entreprises du segment se joue aussi sur la complexité et donc sur l'entraînement des IA.

Seulement voilà : même pour faire émerger un modèle allégé, il faut des jours de calculs. Et le séisme ChatGPT a eu comme effet une accélération de la R&D dans le domaine des IA génératives. Conduisant à deux vagues : l'explosion du développement de modèles spécialisés d'une part, la montée en puissance de super IA appelées modèles de fondation. Plus gros, plus globaux et demandant encore plus de temps d'entraînement. C'est cet entraînement qui est pointé du doigt par certains, car il requiert de plus en plus de temps de calcul avec des puces de plus en plus puissantes. Ainsi, la dernière plateforme GraceHopper de Nvidia est une grosse lame de serveur affichant pas moins de 1000 W au compteur. Et Nvidia a même développé un supercalculateur conjuguant la puissance de 256 unités de ce monstr (on vous laisse calculer la consommation électrique nécessaire…)

Maintenant que les super puces façon Snapdragon 8 Gen 3 sont bientôt là, il ne reste plus qu'à l'écosystème logiciel des smartphones de développer et intégrer ces modèles développés à grands coups de mégawatts. Et espérer que les usages en vaillent la chandelle !