D'après une recherche de METR, l'intelligence artificielle aurait tendance à freiner les développeurs chevronnés.

Jeudi 17 Juillet 2025

Et si les promesses de gains de productivité de l'IA tardaient à se concrétiser ? Une étude expérimentale, conduite par le laboratoire indépendant METR (Model Evaluation and Transparency Research) au cours du premier semestre 2025, remet en question les idées reçues. Des développeurs aguerris, testés dans des conditions réelles sur des dépôts open source qu'ils maîtrisent, se sont avérés en moyenne 19 % plus lents lorsqu'ils utilisaient des outils d'IA générative que lorsqu'ils s'en dispensaient. Une contre-performance inattendue, d'autant plus surprenante que les participants eux-mêmes pensaient, à tort, que l'IA les avait aidés à gagner en rapidité.

Les benchmarks conventionnels, tels que SWE-Bench Verified ou RE-Bench, ont permis d'évaluer la progression rapide des modèles d'IA. Cependant, ces évaluations sont souvent sorties de leur contexte : elles se concentrent sur des tâches isolées, standardisées, évaluées automatiquement, souvent éloignées des exigences pratiques et des contraintes implicites du travail logiciel quotidien.

$D\'après une recherche de METR, l\'intelligence artificielle aurait tendance à freiner les développeurs chevronnés.$

Afin de tirer des conclusions fiables concernant l'impact réel de l'IA générative sur le développement logiciel, METR a recruté 16 développeurs ayant accumulé plusieurs dizaines à centaines d'heures d'expérience avec les modèles de langage et contribuant en moyenne depuis cinq ans à des projets open source matures (22 000 étoiles GitHub, plus d'un million de lignes de code).

La méthodologie de son essai contrôlé randomisé (ECR) repose sur un principe simple : autoriser ou non l'utilisation de l'IA, (principalement Cursor Pro avec Claude 3.5/3.7), de manière aléatoire, sur un ensemble de 246 problèmes techniques faisant partie de leur routine professionnelle (bugs, refactorings, amélioration de fonctionnalités), puis mesurer le temps de résolution.

Les durées de travail ont été auto-déclarées et complétées par des enregistrements d'écran. Les productions ont été évaluées qualitativement, à travers les Pull Requests soumises.

Un écart entre la perception et la réalité

Malgré leur expérience, les développeurs prévoyaient une accélération de 24 % grâce à l'IA. À la fin de l'expérimentation, cette estimation a légèrement diminué, mais restait optimiste : 20 % de gain de temps perçu.

En fait, les tâches accomplies avec l'aide de l'IA ont nécessité en moyenne 19 % de temps supplémentaire par rapport à celles réalisées sans, une différence non seulement inverse aux anticipations des participants, mais également contraire aux prévisions formulées par des experts externes issus des domaines de l'économie (−39 %) et du machine learning (−38 %).

De multiples explications

METR identifie cinq facteurs principaux susceptibles d'éclairer ce ralentissement :

Une utilisation imparfaite des outils, en particulier des prompts trop rudimentaires ;
Une familiarité encore limitée avec les interfaces IA comme Cursor ;
Des normes de qualité élevées dans les projets examinés, parfois incompatibles avec les suggestions produites ;
Une couverture insuffisante des cas complexes par les modèles ;
Une forme de distraction cognitive liée à l'expérimentation avec l'IA.

D'autres hypothèses, notamment des erreurs de mesure ou des défauts de méthodologie, ont été écartées par l'analyse.

Loin de conclure que l'IA est préjudiciable à la performance de tous les développeurs dans tous les contextes, l'étude souligne surtout que le gain de productivité n'est ni immédiat ni automatique : il est tributaire d'un ajustement précis entre l'outil, la tâche et le contexte professionnel.

D'après une recherche de METR, l'intelligence artificielle aurait tendance à freiner les développeurs chevronnés.

Jeudi 17 Juillet 2025

Ils nous font confiance