Avatar

ttyrex's blog

L’Open Source à l’épreuve de l’intelligence artificielle

— By ttyrex

Du logiciel Open Source à l’IA Open Source

L’Open Source appliqué aux logiciels est aujourd’hui à peu près compris par la majorité des informaticiens, et même par le grand public. Pour poser rapidement le cadre, rappelons qu’il ne s’agit pas uniquement de licence ou de code source accessible : le logciel Open Source et/ou libre implique aussi – et surtout – de fournir l’ensemble des éléments nécessaires pour reproduire, comprendre et modifier le logiciel. Par exemple, publier un code source illisible (car obfusqué) ou sans les outils de compilation nécessaires ne suffit pas à qualifier un logiciel de “libre”.

Dans un monde où la technologie est omniprésente, ignorer ce que font réellement nos outils peut ouvrir la porte à une surveillance constante. Sans verser dans la paranoïa, promouvoir et utiliser le logiciel libre reste une manière concrète de protéger ses libertés individuelles.

Mais qu’en est-il de l’intelligence artificielle ? Peut-on y appliquer les mêmes critères ? Certaines entreprises – Facebook (ou plutôt Meta), pour ne pas les citer – affirment que leur modèle LLaMA est Open Source.

Est-ce vrai… ou est-ce un abus de langage ? (Spoiler: C’est des conneries)

A blackbox with the text AI writtent on it

Que faut il pour créer un modèle ?

Créer un modèle d’intelligence artificielle générative – comme GPT ou LLaMA – est un processus complexe qui dépasse largement le simple fait d’écrire du code. En version très (très) résumée (je ne suis pas expert, et il existe une tonne de documentation sur le sujet), il faut d’abord concevoir l’architecture du modèle, puis surtout l’entraîner.

C’est cette phase d’entraînement qui est de loin la plus coûteuse : En argent (enfin… tout dépend du salaire des chercheurs 😄), mais aussi en temps et en énergie. Pour y parvenir, il ne suffit pas d’avoir une armée de GPU ultra-puissants : Il faut aussi des données, beaucoup de données.

C’est justement sur ce point que tout le monde déraille un peu. Les grandes entreprises tech semblent se foutre royalement du droit d’auteur, en exploitant massivement des contenus sans réel consentement. De leur côté, les ayants droit essaient tant bien que mal de protéger l’accès à leurs œuvres.

Par exemple, Meta (Facebook) est accusée d’avoir utilisé des livres piratés pour entraîner ses modèles. OpenAI, avec ChatGPT, a de son côté aspiré une grande partie du web — y compris des contenus soumis à des droits en plaidant le droit de le faire.

Je ne parle même pas encore du droit d’auteur applicable aux contenus générés par une IA. Et pourtant, c’est une question cruciale… Curieusement, la licence semble disparaître comme par magie une fois que l’œuvre est absorbée par le modèle. Pratique.

La bataille du consentement, encore et toujours.

Pour résumer cette situation franchement absurde quand on prend un peu de recul : OpenAI s’approprie des contenus à grande échelle, puis nous fait payer 20$ par mois pour y accéder à travers une interface “intelligente”. De son côté, Meta (fidèle à elle-même) joue la carte du modèle gratuit, histoire de s’acheter une bonne conscience “open”, tout en exploitant les requêtes des utilisateurs pour améliorer son ciblage publicitaire et continuer à profiler à grande échelle.

Autrement dit : l’un vous fait payer l’entrée d’un musée qu’il a lui-même cambriolé, l’autre vous propose la visite gratuite, mais vous suit discrètement dans chaque salle, enregistre vos moindres réactions… et vous attend à la sortie pour vous vendre des souvenirs parfaitement personnalisés.

Open … mon c** !

Et pour revenir au sujet initial : peu importe la méthode de monétisation choisie (abonnement, pub, ou les deux), le constat est le même. Aucune de ces approches dites “open” ne permet réellement à quiconque de reproduire le modèle à l’identique. Pourquoi ? Parce que, même si les poids ou le code sont parfois disponibles, les jeux de données restent systématiquement absents.

Et on comprend vite pourquoi… 🏴‍☠️

Si on réfléchit sérieusement à ce qu’il faudrait pour créer un modèle d’intelligence artificielle réellement open source, dans les règles de l’art, on tombe vite sur des enjeux énormes… et malheureusement, rien ne laisse penser qu’ils seront résolus de sitôt.

D’abord, il y a la question des données. Les jeux de données sont extrêmement difficiles à obtenir légalement et à grande échelle. Par exemple, les règles autour du domaine public varient selon les pays : 50 ans dans l’un, 70 dans l’autre… Bref, un vrai casse-tête juridique pour quiconque voudrait créer un corpus mondial et cohérent. Et ça, c’est avant même d’avoir commencé à entraîner quoi que ce soit.

Ensuite, il y a la puissance de calcul. Contrairement au logiciel libre, où chacun pouvait contribuer en slip du fond de sa chambre 😄, ici, il faut réunir une puissance de calcul colossale. On ne parle pas de quelques machines, mais de centaines de milliers de GPU. Pour donner un ordre de grandeur, dans ce podcast, il est question de data centers équipés de 400 000 à 500 000 GPUs. Difficile de faire tenir ça dans son sous-sol.

Là où le bât blesse encore, c’est sur la question des droits d’auteur. Et attention, je ne remets pas en cause la légitimité des ayants droit — ils ont tout à fait raison de vouloir défendre leur travail. Mais dans la pratique, cela signifie que pour exploiter légalement ces contenus, il faudrait :

Et qui, aujourd’hui, a les ressources pour ça ?

Les GAFAM, quasiment eux seuls, encore et toujours.

Le constat est simple : seuls ceux qui disposent de moyens énormes pourront entraîner des modèles légalement… (une fois qu’on sera sortis du Far West juridique). Et bonne chance, après ça, pour obtenir un peu d’ouverture de leur part. Autant dire que l’espoir de voir émerger des modèles totalement Open Source semble, pour l’instant, illusoire.

Et nous dans tout ça ?

Ma blonde va encore râler — elle trouve que je donne trop d’importance à l’informatique — mais ceux qui ont vraiment compris l’enjeu, ce sont les mêmes qui défendent le logiciel libre à grande échelle… Des organisations comme la Linux Foundation ou l’Open Source Initiative sont déjà en première ligne sur ces sujets cruciaux, pendant que tout le monde s’extasie sur la dernière prouesse d’OpenAI.

Nos chers médias (oui, désolé de vous pointer du doigt !) et nos institutions publiques semblent concentrer leurs efforts sur une bataille déjà perdue contre les géants de la tech, dans l’espoir de récupérer quelques miettes en guise de compensation. Ils peinent, selon moi, à comprendre l’enjeu fondamental que représentent les licences encadrant l’utilisation des données — comme Creative Commons ou Open Data — dans les domaines de l’Open Source, de la recherche, et plus largement des usages non lucratifs.

Pourtant, ces licences sont essentielles pour servir l’intérêt général, la société… nous tous! Tout comme le code source l’est dans le logiciel libre, elles sont une condition incontournable pour permettre l’émergence de véritables modèles Open Source d’intelligence artificielle, et ainsi espérer proposer une alternative crédible face aux géants de la tech.

Sur ce, je vous souhaite une excellente journée ✌️

^EOF


🤖 Petite note de transparence : J’utilise ChatGPT pour m’aider à corriger les fautes et reformuler certains passages.


/ecriture/ /open-source-ai/