La propriété intellectuelle dans le numérique (5/5)

Dans ce cinquième (et dernier) article de notre dossier, nous abordons la propriété intellectuelle dans l’Intelligence Artificielle (IA), lors des phases de développement, d’entraînement et/ou d’utilisation.

Propriété intellectuelle & Intelligence Artificielle (IA)

Prenons un exemple typique, d’actualité et particulièrement intéressant, concernant la propriété intellectuelle, et qui s’est amplifié ces dernières années : les solutions d’IA basées sur une forme ou une autre d’entraînement, supervisé ou non.

Il y a deux principales situations à prendre en compte :

  • Pendant la phase de développement, incluant l’entraînement, de l’IA ;
  • Pendant la phase d’utilisation de l’IA, que ce soit une IA développée et/ou entraînée en interne, ou un service tiers, déployé en interne (On Premise) ou en ligne (SaaS).

Développements et entraînement des IA

Les solutions d’IA elles-mêmes, c’est-à-dire les logiciels et les services d’IA (installés ou en ligne), impliquent des licences (payantes ou gratuites). Les solutions sous licences propriétaires engendrent peu de questions pour le moment, mais avec les solutions dites « open source » ou même « libres », c’est moins clair.

On retrouve bien sûr la problématique de l’amalgame open source avec libre que nous avons déjà abordé, mais également des questions portant sur quelle partie de la solution d’IA est open source ou libre ? Le service / l’interface seul ? Le modèle seul ? Les deux ? Et qu’en est-il des données d’entraînement ou des paramètres du modèle ? Et des sorties générées (produites) par les IA ?

Fin 2024, l’OSI a proposé une définition d’une Intelligence Artificielle open source (= OSAID), cependant des critiques sont apparues immédiatement, notamment parce qu’elle n’est pas conforme à l’Open Source Definition (= OSD, également éditée par l’OSI) donc l’OSAID n’est même pas open source, et qu’il n’y avait pas besoin d’une telle définition, puisque l’OSD s’appliquait déjà à tous les types de logiciels, IA incluses.

Cependant, l’OSAID aborde également certains aspects concernant les données d’entraînement et les modèles. On comprend qu’il est trop tôt pour en tirer des règles définitives, comme l’OSI l’indique dans l’OSAID : «  We expect this will become clearer over time, once the legal system has had more opportunity to address Open Source AI systems » (« nous espérons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu davantage l’occasion d’étudier les systèmes d’IA Open Source »).

À noter que cela n’empêche nullement qu’il puisse exister des logiciels d’IA et/ou des modèles, réellement libres (au sens de la FSF). D’ailleurs, les IA se revendiquant open source ne sont pas nouvelles : cela existe depuis les années 90, mais il convient de rester circonspect avec les éditeurs d’IA qui se revendiquent « open source », qu’ils soient compatibles ou non avec l’OSAID.

Concernant les entraînements, ceux-ci consomment des volumes gigantesques d’informations : textes, sons, vidéo, images, etc., provenant de nombreuses sources : sites Web d’organismes ou personnels, articles de presse, bases de données institutionnelles et académiques, blogs, encyclopédies en ligne, publications dans des forums et réseaux sociaux, i.e. essentiellement l’« open web » (voir plus bas).

Ces sources sont parfois complétées par des livres numérisés et dans une moindre mesure, par des bases de données achetées (pouvant contenir des DCP qui ne sont pas libres de droits !), mais ces sources ne représentent qu’une infime partie de ce qui est appelé « deep web» (voir plus bas, également).

Bien entendu, cette consommation d’informations concerne toutes les langues.

C’est d’ailleurs ce qu’OpenAI indique dans ses clauses (à la date de rédaction de cet article), certains parlent même de « tout Internet » comme lors de la récente audition de Luc Julia au Sénat le 18 juin 2025 (à partir de 24‟30), même si l’on peut supposer qu’il voulait faire référence à « tout l’open web ».

Quoi qu’il en soit, la nature précise de chaque source, les proportions de ces sources (en volume), ainsi que les filtrages et vérifications mis en place, ne sont pas connus précisément, et divergent pour chaque société et même chaque modèle d’une même société. Ces sociétés ne font pas preuve d’une grande transparence en la matière à ce jour, sans doute à cause de la concurrence féroce et de l’expansion très rapide du secteur.

De toute évidence, certains éditeurs ont choisi de ne pas prendre pleinement en compte tous les droits afférant à ces données d’entraînement, pour diverses raisons : coûts des droits, délais de recherche des auteurs et ayants droit, complexité de la tâche étant donné les volumes considérables, développement extrêmement rapide du secteur de l’IA… Toutefois, il est peu probable que ces arguments soient recevables juridiquement, cela pourrait même être considéré comme des manœuvres dolosives dans certains cas extrêmes.

La multiplication des procès contre certains éditeurs d’IA semble confirmer cette hypothèse, même s’il faudra attendre les décisions finales. À en croire la source ci-dessous, OpenAI serait en tête, environ 1/3 des procès concernent cette entreprise américaine, même si elle est loin d’être le seul éditeur concerné :

Procès droits d'auteur sur l'IASource : Statista

On peut citer quelques exemples récents de procès, toujours en cours en 2025 :

Ces procès peuvent être compliqués par le fait que, pour les auteurs des œuvres utilisées lors des entraînements, il est parfois difficile de fournir une preuve formelle qu’un éditeur d’IA a utilisé leurs œuvres pour entraîner son modèle, du fait de son manque de transparence. Cependant, dans certains cas, une IA peut produire un résultat qui est la copie conforme d’une œuvre (un extrait ou la totalité) ou même faire apparaître le copyright de l’œuvre originale, dans ce cas le doute n’est plus possible, comme dans l’affaire Getty Image vs Stability AI, dès 2023.

  • Pour se défendre, certains éditeurs d’IA américains invoquent notamment l’exception du Fair use, que l’on pourrait traduire par « utilisation équitable ». C’est une exception juridique d’origine américaine, reprise par d’autres pays anglophones, mais pas en droit français. Cette exception autorise la réutilisation d’œuvres sans que cela constitue une violation de droit d’auteur, sous certaines conditions, dont une bonne part est laissée à l’appréciation des juges, et pour des finalités spécifiques: la critique, l’information, l’enseignement, les études et la recherche universitaire. Quoi qu’il en soit, il est fort peu probable que l’entraînement d’une IA puisse s’en prévaloir.
  • Afin d’éviter des procès longs et coûteux, aux issues incertaines, des éditeurs d’IA signent des accords avec les plus grands médias, bien que cela ne couvre qu’une partie des sources dont les droits n’ont pas été respectés, mais à ce jour les médias sont les plus actifs pour déposer des plaintes. Exemples : accords de Google, Microsoft, Meta ou encore OpenAI, pour des sommes allant de quelques millions à plusieurs centaines de millions de dollars, avec The Wall Street Journal, le Financial Times, Vogue, le New York Post, Vanity Fair, Le Monde, l’Associated Press, Reuters, l’AFP, etc.

Remarque sur les données d’entraînement provenant du Web

Concernant l’exhaustivité et la pertinence des entraînements à partir de données provenant du Web :

  • Les éditeurs d’IA utilisent l’« open web » comme source principale (car il est librement accessible, même si rien n’y est libre de droits comme nous l’avons montré), cela signifie que les IA actuelles, notamment les IA génératives (« ChatBots »), n’apprennent qu’avec 1) ce qui est numérisé et 2) ce qui est accessible sur l’open web.
  • Même si cela peut sembler beaucoup, ces IA ignorent tout de ce qui n’est pas numérique, c’est-à-dire tout ce qui dans le monde réel, physique, et qui n’est pas (encore) numérisé, ainsi que pratiquement tout ce qui n’est pas accessible directement et librement sur le Web (c’est-à-dire le « deep web » et le « dark web » représentant environ 96% du Web, l’« open web » étant ce qui reste, soit environ 4 %, voir illustration ci-après). Tout cela reste infiniment plus vaste que ce sur quoi les éditeurs entraînent leur IA. Cela permet de mettre en perspective la pertinence et l’exhaustivité supposée des sources d’entrainements des IA actuelles.
  • De plus, tout ce qui est sur le Web (notamment l’open web), n’est pas nécessairement exact ou objectif, il y a des erreurs, des omissions, voire des mensonges. Ces fausses informations (fake news) proviennent de certains « médias », de réseaux sociaux, ainsi que de la propagande des divers états et groupes de pression, de la publicité, etc. Il est difficile, pour ne pas dire impossible, de démêler le vrai du faux avant d’utiliser ces contenus pour l’entraînement, d’autant que c’est rarement tout ou rien : un article peut être globalement exact, mais contenir des inexactitudes, des opinions partiales ou des contrevérités.
Répartition Open Web / Deep Web / Dark Web (Illustration)

Utilisation des IA

L’utilisation des IA pose également des questions juridiques :

  • Les droits de propriété sur les informations fournies aux IA par les utilisateurs sont-ils respectés, i.e. les informations en entrée, ou la requête, via un prompt ou une API ?
  • Quels sont les droits de propriété des créations générées par les IA, i.e. les créations en sortie, ou le résultat, via un prompt ou une API ?

Pour la première question, la réponse est relativement simple : les droits devraient être respectés, toutefois une lecture attentive des clauses d’utilisation de l’éditeur de la solution d’IA devrait le confirmer ou l’infirmer, certains s’appropriant ce que les utilisateurs fournissent, sous diverses justifications, plus ou moins légitimes.

Quoi qu’il en soit, il convient de rester particulièrement vigilant avec les informations que l’on fournit à une IA, notamment en ligne et dans le cadre professionnel : pas d’informations confidentielles ou protégées (droits d’auteur), ni de DCP, du moins si elles ne sont pas anonymisées préalablement. Et cela englobe les informations issues directement votre organisme (entreprises privées, publiques, associations, etc.), comme les informations provenant de tiers (clients, partenaires, sous-traitants, fournisseurs, etc.). Le plus prudent est de ne jamais fournir à une IA des informations ou des œuvres dont vous ne disposez pas des droits.

Pour la seconde question, c’est bien plus complexe, mais tout aussi important, par exemple si l’on souhaite exploiter une création générée par une IA en vue d’une publication, voire une commercialisation (créations multimédia, textuelles, ou encore code source).

Si l’on se base sur le CPI, une œuvre (protégé par les droits d’auteur) est une création de l’esprit (donc humaine), issue d’un processus original et/ou d’une activité inventive, quelle que soit la forme et le type de l’œuvre ou son objectif.

  • On peut argumenter qu’une production numérique, générée par une IA (texte, image, vidéo, musique, etc) :
    • N’est pas une création de l’esprit (i.e. d’un esprit humain), mais une création automatique par un logiciel ;
    • N’est pas nécessairement originale ou inventive, puisqu’elle se base sur des données d’entraînement, qu’elle peut parfois restituer telles quelles, sous forme d’extraits ou agrégées/combinées à d’autres données du modèle ;
    • Et pourrait être déjà protégée par des droits transitifs: les droits sur les œuvres utilisées lors de l’entraînement.

Toutefois, il faut également tenir compte du fait que cette production numérique peut être déclenchée soit par un programme (via une API ou le logiciel dans lequel un assistant d’IA est intégré), soit par une action humaine (via un prompt).

  • Dans le premier cas, aucun humain n’intervient dans le processus de génération, le résultat ne devrait donc pas être considéré comme une œuvre puisqu’il n’y a aucune intervention humaine ;
  • Mais dans le second cas, la requête de l’utilisateur, via le prompt, est soumis à la solution d’IA utilisée pour générer un résultat. L’utilisateur intervient d’une certaine manière dans le processus de génération, et selon le niveau de détail et de précision et son effort créatif et inventif dans l’élaboration de sa requête, il pourrait avoir une part plus ou moins importante dans le processus de génération de l’IA.
  • Dans le cas d’une génération pilotée par un humain, différents scénarios sont à prendre en compte (voir par exemple source 1 et source 2) :
    • Si l’acte de création est le fait d’une personne, qui n’emploie le système d’IA que comme un simple outil d’aide dans son processus créatif, l’œuvre produite devrait appartenir à cette personne ;
    • Si l’acte de création est le fait du système d’IA, mais basé sur des instructions précises et détaillées d’une personne, la création pourrait être considérée comme l’œuvre de la personne dans certains cas (mais une requête telle que « dessine-moi un mouton » ne caractérise évidemment aucune action créative 😉).
    • En gardant à l’esprit que tout ce qui est produit ou généré n’est pas nécessairement une œuvre, donc ne peut pas prétendre à être protégée par les droits d’auteur.
  • Ceci dit, certains éditeurs objectent qu’un système d’IA est créé par des humains (leurs salariés), donc ce qu’il produit le serait aussi par transitivité, mais en droit français, il est peu probable que ce type d’argument soit retenu. D’ailleurs chaque « création » d’un système d’IA n’est pas sciemment produite par les auteurs du système d’IA : il n’y a aucun effort créatif ou inventif de leur part pour chaque production. Une solution d’IA générative peut être un formidable outil, mais reste un « simple » outil.

De plus, il ne faut surtout pas négliger le fait que si l’IA s’appuie sur un modèle entraîné sur des œuvres tierces, ce qui est souvent le cas, ces œuvres tierces sont certainement protégées par des droits d’auteur. La propriété intellectuelle de l’œuvre générée pourrait alors être complexe à déterminer : cela dépendra si le système d’IA utilise telles quelles des œuvres tierces, dont l’éditeur n’a pas les droits, et dans quelles proportions (totalité ou de petites portions, avec ou sans modifications, fortement inspirées ou non).

On voit que cette problématique d’attribution de la propriété des résultats générés par une IA est loin d’être simple, il faudra sans doute des jurisprudences et/ou des textes juridiques pour arriver à clarifier chaque cas.

Quelques conseils de base :

  • Tout d’abord, étudier la licence (les clauses) d’utilisation de l’éditeur de la solution d’IA utilisée pour voir ce qui est indiqué concernant la propriété des résultats générés. Si ce qu’indique l’éditeur n’est pas légal, ou si vous n’êtes pas d’accord, il ne faut pas accepter la licence, donc ne pas utiliser la solution en question ;
  • Garder à l’esprit que même si l’éditeur ne revendique aucun droit sur les résultats générés, cela ne signifie pas que les œuvres utilisées pour l’entraînement sont libres de droits : cela ne vous exemptera pas de respecter les droits des œuvres éventuellement intégrées dans le résultat généré. En faisant cela, l’éditeur tente certainement de se dégager d’une partie de ses responsabilités sur l’utilisateur : ce sera l’utilisateur qui sera responsable des usages qu’il fera des résultats générés.
  • Garder des traces du processus de génération (requêtes et résultats produits), pour pouvoir prouver l’origine de l’œuvre (si toutefois le résultat généré peut être considéré comme une œuvre !), et l’implication forte de l’utilisateur dans sa création, ainsi que son originalité et son effort créatif.

Conclusion

Ce dossier (en 5 articles) n’a pas la prétention d’être exhaustif, loin de là, mais il propose un tour d’horizon, que j’espère assez large et suffisamment clair, des points d’attention, des bénéfices, des risques et des bonnes pratiques en termes de propriété intellectuelle.

S’il est nécessaire de se documenter un minimum, notamment sur les aspects de la propriété intellectuelle (nul n’est censé ignorer la loi !) et les licences/clauses d’utilisation, il n’y a rien de réellement insurmontable pour un organisme, même modeste, même s’il faut évidemment y consacrer un peu de temps tout de même. J’ajouterais que plus on pratique cette thématique, plus on est efficace dans cette tâche (comme avec pratiquement toutes les tâches en fait).

Les organismes de taille plus importante (> 50 salariés) ont généralement au moins un service juridique, et les plus grands ont même un département spécialisé en propriété intellectuelle, qui peuvent former et conseiller les collaborateurs.

Pour clore ce tour d’horizon de la propriété intellectuelle, avant d’envisager d’utiliser l’œuvre produite par un tiers, c’est-à-dire, de manière générale tout ce que vous, ou votre organisme, n’avez pas créé, voici les étapes à suivre :

  1. Déterminez toutes les utilisations envisagées ;
  2. Vérifiez que chaque utilisation est permise (licences, CGU, contact de l’auteur/éditeur, …) et gardez une trace de ces vérifications  ;
  3. Puis utilisez l’œuvre dans le respect des clauses des licences et CGU (et tarifs éventuels) et dans le respect des auteurs (en les citant).
Date

25 novembre 2025

Auteur
Portrait collaborateur Arnaud (Illustration)

Arnaud Witschger

Directeur Technique Informatique