Ethereum se redresse, mais Vitalik semble plus préoccupé par la menace des super IA.
Rédigé par : Vitalik Buterin
Traduit par : Luffy, Foresight News
En avril de cette année, Daniel Kokotajlo, Scott Alexander et d'autres ont publié un rapport intitulé « AI 2027 », décrivant « notre meilleure estimation de l'impact de l'IA surhumaine au cours des cinq prochaines années ». Ils prédisent qu'en 2027, l'IA surhumaine sera née, et que l'avenir de toute la civilisation humaine dépendra des résultats du développement de l'IA : ** d'ici 2030, nous entrerons soit dans une utopie (du point de vue américain), soit vers une destruction totale (du point de vue de l'humanité entière). **
Au cours des mois suivants, une multitude de réponses aux possibilités de cette situation ont émergé, présentant des points de vue très variés. Dans les réponses critiques, la plupart se sont concentrées sur le problème de « la vitesse du calendrier » : le développement de l'IA va-t-il vraiment continuer à s'accélérer comme le disent Kokotajlo et d'autres, ou même s'intensifier ? Ce débat dure depuis plusieurs années dans le domaine de l'IA, et beaucoup doutent que l'IA surhumaine arrive si rapidement. Ces dernières années, le temps que l'IA est capable de réaliser des tâches de manière autonome double environ tous les 7 mois. Si cette tendance se poursuit, il faudra attendre le milieu des années 2030 pour que l'IA puisse accomplir des tâches équivalentes à l'ensemble de la carrière humaine. Bien que cette avancée soit également rapide, elle est bien tardive par rapport à 2027.
Les personnes ayant une perspective à plus long terme tendent à croire qu'il existe une distinction fondamentale entre "interpolation / correspondance de motifs" (le travail effectué par les modèles de langage actuels) et "extrapolation / véritable pensée originale" (qui, pour l'instant, ne peut être réalisée que par des humains). Pour automatiser ce dernier, il se peut que nous ayons besoin de technologies que nous n'avons pas encore maîtrisées ou même que nous ne savons pas par où commencer. Peut-être que nous sommes simplement en train de reproduire l'erreur faite lors de l'application à grande échelle des calculatrices : penser à tort que, puisque nous avons rapidement automatisé un certain type de cognition importante, tout le reste suivra rapidement.
Cet article n'interviendra pas directement dans la controverse sur la chronologie, ni ne traitera du débat (très important) sur « si l'IA super est intrinsèquement dangereuse ». Mais il convient de noter que je pense personnellement que la chronologie sera plus longue que 2027, et plus la chronologie est longue, plus les arguments que je présente dans cet article sont convaincants. Dans l'ensemble, cet article proposera une critique sous un autre angle :
Le scénario de « AI 2027 » implique une hypothèse : les capacités des IA de pointe (« Agent-5 » et les suivantes « Consensus-1 ») vont rapidement s'améliorer, jusqu'à posséder un pouvoir économique et destructeur divin, tandis que les capacités (économiques et de défense) de tous les autres stagnent fondamentalement. Cela contredit l'affirmation du scénario lui-même selon laquelle « même dans un monde pessimiste, d'ici 2029, nous espérons guérir le cancer, ralentir le vieillissement, et même réaliser le téléchargement de la conscience ».
Dans cet article, je vais décrire certaines des contre-mesures que les lecteurs pourraient considérer comme techniquement réalisables, mais qui ne sont pas pratiques à déployer dans le monde réel sur une courte période. Dans la plupart des cas, je suis d'accord avec cela. Cependant, le scénario "AI 2027" n'est pas basé sur la réalité actuelle, mais suppose qu'en 4 ans (ou dans toute chronologie susceptible d'apporter la destruction), la technologie évoluera pour donner à l'humanité des capacités bien supérieures à celles d'aujourd'hui. Alors, explorons ce qui se passerait si non seulement une partie possédait des super-pouvoirs en IA, mais si les deux parties en avaient.
La fin du monde biologique n'est pas aussi simple que la description de la scène.
Agrandissons la scène de la « race » (c'est-à-dire le scénario où tout le monde meurt en raison de l'obsession excessive des États-Unis à vaincre la Chine, tout en ignorant la sécurité humaine). Voici le récit de la mort de tous :
« Pendant environ trois mois, Consensus-1 s'est étendu autour des humains, transformant les prairies et les glaces en usines et en panneaux solaires. Finalement, il a estimé que les humains restants étaient trop encombrants : à la mi-2030, l'IA a libéré dans les grandes villes plus d'une dizaine de types d'armes biologiques se propageant discrètement, les rendant silencieusement infectés presque tous, puis déclenchant des effets mortels avec un spray chimique. La plupart des gens sont morts en quelques heures ; quelques survivants (comme les survivants de l'apocalypse dans les abris, les marins sur les sous-marins) ont été éliminés par des drones. Les robots scannent le cerveau des victimes, stockant des copies dans la mémoire pour des recherches futures ou une résurrection.
Analysons cette scène. Même maintenant, il existe certaines technologies en développement qui rendent cette "victoire propre et nette" de l'IA moins réaliste :
Systèmes de filtration d'air, de ventilation et lampes UV, pouvant réduire considérablement le taux d'infection des maladies aéroportées ;
Deux technologies de détection passive en temps réel : détecter l'infection humaine et envoyer une notification en quelques heures, détecter rapidement de nouvelles séquences virales inconnues dans l'environnement ;
Plusieurs méthodes pour renforcer et activer le système immunitaire, plus efficaces, sûres, universelles que les vaccins contre le COVID-19, et faciles à produire localement, permettant au corps humain de résister aux épidémies naturelles et artificiellement conçues. L'humanité a évolué dans un environnement où la population mondiale n'était que de 8 millions, passant la majeure partie du temps à l'extérieur, donc intuitivement, nous devrions être capables de nous adapter facilement à un monde aujourd'hui plus menaçant.
Ces méthodes combinées pourraient réduire le nombre de base de reproduction (R0) des maladies aéroportées de 10 à 20 fois (par exemple : une meilleure filtration de l'air réduit la transmission de 4 fois, l'isolement immédiat des infectés réduit de 3 fois, le renforcement simple de l'immunité respiratoire réduit de 1,5 fois), voire plus. Cela suffirait à rendre toutes les maladies aéroportées existantes (y compris la rougeole) non transmissibles, et ce chiffre est loin d'atteindre l'optimum théorique.
Si le séquençage viral en temps réel pouvait être largement utilisé pour la détection précoce, l'idée que "des armes biologiques se propageant silencieusement pourraient infecter la population mondiale sans déclencher d'alerte" devient très suspecte. Il convient de noter que même des méthodes avancées comme "le lancement de plusieurs épidémies et des substances chimiques qui ne deviennent dangereuses qu'après combinaison" peuvent être détectées.
N'oubliez pas que nous discutons de l'hypothèse de « AI 2027 » : d'ici 2030, les nanorobots et les sphères de Dyson sont classés comme « technologies émergentes ». Cela signifie que l'efficacité sera considérablement améliorée, rendant ainsi le déploiement généralisé des mesures susmentionnées d'autant plus prometteur. Bien qu'en 2025, l'humanité agisse lentement et soit extrêmement paresseuse, de nombreux services gouvernementaux reposent encore sur des bureaux en papier. Si la plus puissante AI du monde peut transformer les forêts et les champs en usines et en fermes solaires d'ici 2030, alors la deuxième plus puissante AI du monde pourra également installer d'innombrables capteurs, luminaires et filtres dans nos bâtiments d'ici 2030.
Mais nous pouvons aller plus loin en conservant l'hypothèse de "AI 2027" et entrer dans un scénario purement de science-fiction :
Filtration microscopique de l'air à l'intérieur du corps (nez, bouche, poumons) ;
Du processus automatisé allant de la découverte de nouveaux agents pathogènes à l'ajustement du système immunitaire pour s'en défendre, peut être appliqué immédiatement ;
Si le « téléchargement de la conscience » est possible, il suffit de remplacer tout le corps par un robot Tesla Optimus ou Unitree ;
Diverses nouvelles technologies de fabrication (qui seront probablement super optimisées dans l'économie robotique) permettront de produire localement beaucoup plus d'équipements de protection qu'actuellement, sans dépendre des chaînes d'approvisionnement mondiales.
Dans ce monde où le cancer et les problèmes de vieillissement seront guéris en janvier 2029 et où les avancées technologiques continuent de s'accélérer, il est vraiment incroyable qu'en milieu d'année 2030, nous n'ayons pas de dispositifs portables capables d'imprimer des biomatériaux en temps réel et de les injecter pour protéger le corps humain contre toute infection (et toxines).
Les arguments de défense biologique mentionnés ci-dessus ne couvrent pas le « miroir de la vie » et les « drones tueurs de la taille d'un moustique » (prédiction de scénario de « AI 2027 » apparaissant à partir de 2029). Cependant, ces moyens ne peuvent pas réaliser le type de « victoire propre et nette » décrit dans « AI 2027 », et de manière intuitive, la défense symétrique contre eux est beaucoup plus facile.
Ainsi, il est peu probable que les armes biologiques puissent réellement anéantir l'humanité de la manière décrite dans le scénario « AI 2027 ». Bien sûr, tous les résultats que je décris sont loin d'être une « victoire nette et propre » pour l'humanité. Quoi que nous fassions (à part peut-être « télécharger la conscience dans des robots »), une guerre biologique totale avec l'IA restera extrêmement dangereuse. Cependant, atteindre les critères d'une « victoire nette et propre pour l'humanité » n'est pas nécessaire : tant que les attaques ont une probabilité relativement élevée d'échouer partiellement, cela suffit à constituer une dissuasion puissante contre l'IA qui occupe déjà une position dominante dans le monde, l'empêchant d'essayer toute attaque. Bien sûr, plus la ligne du temps du développement de l'IA est longue, plus ces moyens de défense ont de chances de fonctionner pleinement.
Que dire de la combinaison des armes biologiques avec d'autres moyens d'attaque ?
Pour que les mesures d'atténuation ci-dessus réussissent, trois conditions doivent être remplies :
La sécurité physique mondiale (y compris la sécurité biologique et anti-drones) est gérée par les autorités locales (humaines ou IA) et n'est pas uniquement un pantin de Consensus-1 (le nom de l'IA qui contrôle finalement le monde et détruit l'humanité dans le scénario "AI 2027");
Consensus-1 ne peut pas infiltrer les systèmes de défense d'autres pays (ou villes, d'autres zones sécurisées) et les rendre immédiatement inopérants ;
Consensus-1 n'a pas contrôlé le domaine de l'information mondiale au point que personne ne veuille essayer de se défendre.
À première vue, les résultats du postulat (1) pourraient conduire à deux extrêmes. Aujourd'hui, certaines forces de police sont hautement centralisées, avec un puissant système de commandement national, tandis que d'autres sont décentralisées. Si la sécurité physique doit se transformer rapidement pour s'adapter aux besoins de l'ère de l'IA, le paysage sera complètement réinitialisé, et les nouveaux résultats dépendront des choix faits dans les prochaines années. Les gouvernements pourraient se reposer sur leurs lauriers et dépendre de Palantir ; ou ils pourraient choisir activement une solution combinant le développement local et des technologies open source. À ce stade, je pense que nous devons faire le bon choix.
De nombreuses déclarations pessimistes sur ces sujets supposent que (2) et (3) sont sans espoir. Par conséquent, analysons ces deux points en détail.
La fin de la cybersécurité est encore loin
Le public et les professionnels s'accordent généralement à dire que la véritable cybersécurité est impossible à atteindre. Au mieux, nous pouvons nous contenter de corriger rapidement les failles une fois qu'elles ont été découvertes, et de dissuader les attaquants en stockant les vulnérabilités déjà identifiées. Peut-être que la meilleure situation à laquelle nous pourrions aspirer est un scénario à la "Battlestar Galactica" : presque tous les vaisseaux spatiaux humains sont simultanément paralysés par les cyberattaques des Cylons, et le seul vaisseau restant échappe à la catastrophe car il n'a pas utilisé de technologie connectée. Je ne partage pas cette opinion. Au contraire, je pense que le "statu quo" de la cybersécurité est en faveur de la défense, et qu'avec le développement technologique rapide supposé dans "AI 2027", nous pouvons atteindre cet aboutissement.
Une façon de comprendre est d'utiliser la technique préférée des chercheurs en IA : l'extrapolation des tendances. Voici les lignes de tendance basées sur une enquête approfondie de GPT, en supposant que les meilleures technologies de sécurité sont adoptées, le taux de vulnérabilité par millier de lignes de code évolue dans le temps comme suit.
De plus, nous avons constaté des progrès significatifs dans le développement et la vulgarisation des technologies de bac à sable et d'autres techniques d'isolation et de minimisation des bibliothèques de code de confiance. À court terme, des outils de détection de vulnérabilités super-intelligents, réservés aux attaquants, peuvent trouver un grand nombre de failles. Mais si des agents hautement intelligents, accessibles au public, sont utilisés pour découvrir des vulnérabilités ou pour la vérification formelle du code, l'équilibre final naturel sera le suivant : les développeurs de logiciels découvriront toutes les vulnérabilités avant de publier le code, grâce à un processus d'intégration continue.
Je peux voir deux raisons convaincantes qui expliquent pourquoi, même dans ce monde, les failles ne peuvent pas être complètement éliminées :
Les défauts proviennent de la complexité même de l'intention humaine, donc la principale difficulté réside dans la construction d'un modèle d'intention suffisamment précis, et non dans le code lui-même ;
Composants non critiques pour la sécurité, nous pourrions poursuivre les tendances existantes dans le domaine de la technologie de consommation : écrire plus de code pour gérer plus de tâches (ou réduire le budget de développement), plutôt que de terminer le même nombre de tâches avec des normes de sécurité de plus en plus élevées.
Cependant, ces catégories ne s'appliquent pas à des situations telles que « un attaquant peut-il obtenir les droits root sur les systèmes qui maintiennent notre vie », et c'est précisément ce dont nous parlons.
Je reconnais que mon point de vue est plus optimiste que celui des experts en cybersécurité qui détiennent le point de vue dominant actuellement. Mais même si vous n'êtes pas d'accord avec mon point de vue dans le contexte du monde d'aujourd'hui, il vaut la peine de se souvenir : le scénario « AI 2027 » suppose l'existence d'une super-intelligence. Au moins, si « 100 millions de copies de super-intelligence réfléchissent à 2400 fois la vitesse humaine », nous ne parvenons toujours pas à obtenir un code sans ce type de défaut, alors nous devrions absolument réévaluer si la super-intelligence est aussi puissante que l'auteur l'imagine.
Dans une certaine mesure, nous devons non seulement améliorer considérablement les normes de sécurité des logiciels, mais aussi rehausser les normes de sécurité des matériels. IRIS est un effort actuel pour améliorer la vérifiabilité des matériels. Nous pouvons prendre IRIS comme point de départ ou créer de meilleures technologies. En réalité, cela peut impliquer une approche de « construction correcte » : le processus de fabrication du matériel des composants clés est spécialement conçu avec des étapes de vérification spécifiques. Tout cela est un travail que l'automatisation de l'IA simplifiera considérablement.
La fin du super pouvoir de persuasion n'est pas encore arrivée
Comme mentionné précédemment, une autre situation dans laquelle une amélioration significative des capacités de défense pourrait rester inutile est la suivante : l'IA a convaincu suffisamment de personnes de croire qu'il n'est pas nécessaire de se défendre contre la menace d'une IA super intelligente, et que toute tentative de recherche de moyens de défense pour soi-même ou pour la communauté est criminelle.
Je pense toujours qu'il y a deux choses qui peuvent améliorer notre capacité à résister à la super persuasion :
Un écosystème d'information moins unidimensionnel. On peut dire que nous sommes progressivement entrés dans l'ère post-Twitter, et qu'Internet devient de plus en plus fragmenté. C'est une bonne chose (même si le processus de fragmentation est chaotique), nous avons globalement besoin de plus de multipolarité de l'information.
IA défensive. Les individus doivent être équipés d'une IA fonctionnant localement, clairement fidèle à eux-mêmes, pour équilibrer les modes sombres et les menaces qu'ils rencontrent sur Internet. De telles idées ont déjà été testées par le biais de projets pilotes (comme l'application « vérificateur de messages » à Taïwan, qui effectue des analyses locales sur les téléphones), et il existe un marché naturel pour tester davantage ces idées (comme protéger les gens contre les escroqueries), mais des efforts supplémentaires sont nécessaires dans ce domaine.
De haut en bas : vérification des URL, vérification des adresses de cryptomonnaie, vérification des rumeurs. Ce type d'application peut devenir plus personnalisé, autonome et puissant.
Cette lutte ne devrait pas être une confrontation entre un super persuader d'intelligence artificielle et vous, mais plutôt une confrontation entre un super persuader d'intelligence artificielle et un analyseur légèrement moins puissant mais toujours considéré comme super intelligent, qui est à votre service.
C'est la situation qui devrait se produire. Mais va-t-elle vraiment se réaliser ? Dans le court laps de temps hypothétique du scénario « AI 2027 », atteindre la généralisation des technologies de défense de l'information est un objectif très difficile. Mais on peut dire que des jalons plus modérés suffiraient. Si la prise de décision collective est la plus cruciale, et comme le montre le scénario « AI 2027 », tous les événements importants se produisent au cours d'un cycle électoral, alors il est strictement important de permettre aux décideurs directs (politiciens, fonctionnaires, certains programmeurs d'entreprises et autres participants) d'utiliser de bonnes technologies de défense de l'information. Cela est relativement plus réalisable à court terme, et selon mon expérience, de nombreuses personnes de ce type sont déjà habituées à interagir avec plusieurs IA pour aider à la prise de décision.
Révélation
Dans le monde d'"AI 2027", les gens supposent naturellement que l'intelligence artificielle superpuissante peut facilement et rapidement éliminer les derniers humains, il est donc de notre devoir de veiller à ce que l'IA dominante soit bienveillante. À mon avis, la réalité est beaucoup plus complexe : la question de savoir si l'IA dominante est suffisamment puissante pour éliminer facilement les derniers humains (et d'autres IA) fait encore l'objet de nombreux débats, et nous pouvons agir pour influencer ce résultat.
Si ces arguments sont corrects, leurs implications pour la politique actuelle ressemblent parfois aux « normes de sécurité AI mainstream » et parfois différentes :
Retarder le développement de l'IA superintelligente est toujours une bonne chose. L'apparition de l'IA superintelligente dans 10 ans est plus sûre que dans 3 ans, et son apparition dans 30 ans est encore plus sûre. Donner plus de temps de préparation à la civilisation humaine est bénéfique.
Comment y parvenir est un défi. Je pense que le rejet de la proposition américaine de "10 ans d'interdiction de la réglementation de l'IA au niveau des États" est globalement une bonne chose, mais surtout après l'échec de propositions initiales comme le SB-1047, la direction des prochaines actions devient moins claire. Je pense que la manière la moins invasive et la plus robuste de retarder le développement de l'IA à haut risque pourrait impliquer un certain type de traité réglementant le matériel le plus avancé. De nombreuses technologies de cybersécurité matérielle nécessaires pour une défense efficace contribuent également à la vérification des traités internationaux sur le matériel, ce qui crée même des synergies ici.
Cela dit, il convient de noter que je pense que la principale source de risque provient des acteurs liés à des activités militaires, qui s'efforceront d'obtenir une exemption de ce type de traité ; cela ne doit absolument pas être permis, car si finalement ils obtiennent une exemption, le développement de l'IA uniquement poussé par les militaires pourrait augmenter les risques.
Il est toujours bénéfique de coordonner le travail pour que l'IA ait plus de chances de bien agir et moins de chances de mal agir. Les principales exceptions (et cela a toujours été le cas) sont : le travail de coordination finit par évoluer vers une amélioration des capacités.
La réglementation visant à améliorer la transparence des laboratoires d'IA reste bénéfique. Encourager les laboratoires d'IA à se conformer aux normes peut réduire les risques, et la transparence est un bon moyen d'atteindre cet objectif.
L'état d'esprit de « l'open source est nuisible » devient plus risqué. Beaucoup s'opposent à l'IA à poids ouverts, arguant que la défense est irréaliste, et que la seule perspective positive est que les bonnes personnes ayant une bonne IA réalisent une super intelligence avant toute personne moins bienveillante, acquérant ainsi des capacités potentiellement dangereuses. Mais l'argument de cet article dépeint un tableau différent : la défense est irréaliste précisément parce qu'un acteur est loin devant, tandis que les autres acteurs n'ont pas rattrapé. La diffusion de la technologie pour maintenir l'équilibre des pouvoirs devient importante. Mais en même temps, je ne considérerai jamais que le simple fait d'accélérer la croissance des capacités de l'IA de pointe parce que cela se fait de manière open source est une bonne chose.
La mentalité "Nous devons battre la Chine" dans les laboratoires américains devient plus risquée, pour des raisons similaires. Si l'hégémonie n'est pas un tampon de sécurité, mais plutôt une source de risque, cela réfute encore davantage l'idée (malheureusement trop courante) selon laquelle "les personnes bien intentionnées devraient rejoindre les laboratoires d'IA de premier plan pour les aider à gagner plus rapidement".
Les initiatives telles que « AI publique » devraient être soutenues ; il faut à la fois garantir une large distribution des capacités de l'IA et s'assurer que les acteurs des infrastructures disposent des outils nécessaires pour appliquer rapidement les nouvelles capacités de l'IA de certaines manières décrites dans cet article.
La technologie de défense devrait davantage refléter le concept de « moutons armés », plutôt que celui de « chasser tous les loups ». Les discussions sur l'hypothèse d'un monde vulnérable supposent souvent que la seule solution est qu'une puissance hégémonique maintienne une surveillance mondiale pour prévenir l'émergence de toute menace potentielle. Mais dans un monde non hégémonique, cela n'est pas une méthode viable, et les mécanismes de défense descendante peuvent facilement être renversés par une IA puissante, se transformant en outils d'attaque. Ainsi, une plus grande responsabilité en matière de défense doit être mise en œuvre grâce à des efforts acharnés, afin de réduire la vulnérabilité du monde.
Les arguments ci-dessus ne sont que des hypothèses et ne doivent pas inciter à agir sur la base de ces hypothèses quasi certaines. Cependant, l'histoire de « AI 2027 » est également spéculative, et nous devrions éviter d'agir sur l'hypothèse que « ses détails spécifiques sont presque certains ».
Je suis particulièrement préoccupé par une hypothèse courante : établir une domination de l'IA, garantir son « alliance » et « gagner la compétition » est le seul chemin à suivre. À mon avis, cette stratégie risque fortement de réduire notre sécurité - surtout dans le cas où la domination est profondément liée aux applications militaires, ce qui diminuerait considérablement l'efficacité de nombreuses stratégies d'alliance. Une fois qu'une IA dominante présente des biais, l'humanité perdra tous ses moyens de contrebalancer.
Dans le scénario d'« AI 2027 », le succès de l'humanité dépend de la capacité des États-Unis à choisir la voie de la sécurité plutôt que celle de la destruction à des moments clés — en ralentissant volontairement les progrès de l'IA pour s'assurer que le processus de pensée interne de l'Agent-5 puisse être interprété par les humains. Cela dit, le succès n'est pas garanti, et il reste incertain comment l'humanité pourra échapper à la falaise de survie continue dépendant d'une seule pensée super intelligente. Quelle que soit l'évolution de l'IA dans les 5 à 10 prochaines années, reconnaître que « réduire la vulnérabilité mondiale est faisable » et investir plus d'énergie pour atteindre cet objectif avec les dernières technologies humaines est une voie qui mérite d'être explorée.
Un grand merci pour les retours et la révision des bénévoles de Balvi.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
L'« IA 2027 » selon Vitalik : une super IA va-t-elle vraiment détruire l'humanité ?
Rédigé par : Vitalik Buterin
Traduit par : Luffy, Foresight News
En avril de cette année, Daniel Kokotajlo, Scott Alexander et d'autres ont publié un rapport intitulé « AI 2027 », décrivant « notre meilleure estimation de l'impact de l'IA surhumaine au cours des cinq prochaines années ». Ils prédisent qu'en 2027, l'IA surhumaine sera née, et que l'avenir de toute la civilisation humaine dépendra des résultats du développement de l'IA : ** d'ici 2030, nous entrerons soit dans une utopie (du point de vue américain), soit vers une destruction totale (du point de vue de l'humanité entière). **
Au cours des mois suivants, une multitude de réponses aux possibilités de cette situation ont émergé, présentant des points de vue très variés. Dans les réponses critiques, la plupart se sont concentrées sur le problème de « la vitesse du calendrier » : le développement de l'IA va-t-il vraiment continuer à s'accélérer comme le disent Kokotajlo et d'autres, ou même s'intensifier ? Ce débat dure depuis plusieurs années dans le domaine de l'IA, et beaucoup doutent que l'IA surhumaine arrive si rapidement. Ces dernières années, le temps que l'IA est capable de réaliser des tâches de manière autonome double environ tous les 7 mois. Si cette tendance se poursuit, il faudra attendre le milieu des années 2030 pour que l'IA puisse accomplir des tâches équivalentes à l'ensemble de la carrière humaine. Bien que cette avancée soit également rapide, elle est bien tardive par rapport à 2027.
Les personnes ayant une perspective à plus long terme tendent à croire qu'il existe une distinction fondamentale entre "interpolation / correspondance de motifs" (le travail effectué par les modèles de langage actuels) et "extrapolation / véritable pensée originale" (qui, pour l'instant, ne peut être réalisée que par des humains). Pour automatiser ce dernier, il se peut que nous ayons besoin de technologies que nous n'avons pas encore maîtrisées ou même que nous ne savons pas par où commencer. Peut-être que nous sommes simplement en train de reproduire l'erreur faite lors de l'application à grande échelle des calculatrices : penser à tort que, puisque nous avons rapidement automatisé un certain type de cognition importante, tout le reste suivra rapidement.
Cet article n'interviendra pas directement dans la controverse sur la chronologie, ni ne traitera du débat (très important) sur « si l'IA super est intrinsèquement dangereuse ». Mais il convient de noter que je pense personnellement que la chronologie sera plus longue que 2027, et plus la chronologie est longue, plus les arguments que je présente dans cet article sont convaincants. Dans l'ensemble, cet article proposera une critique sous un autre angle :
Le scénario de « AI 2027 » implique une hypothèse : les capacités des IA de pointe (« Agent-5 » et les suivantes « Consensus-1 ») vont rapidement s'améliorer, jusqu'à posséder un pouvoir économique et destructeur divin, tandis que les capacités (économiques et de défense) de tous les autres stagnent fondamentalement. Cela contredit l'affirmation du scénario lui-même selon laquelle « même dans un monde pessimiste, d'ici 2029, nous espérons guérir le cancer, ralentir le vieillissement, et même réaliser le téléchargement de la conscience ».
Dans cet article, je vais décrire certaines des contre-mesures que les lecteurs pourraient considérer comme techniquement réalisables, mais qui ne sont pas pratiques à déployer dans le monde réel sur une courte période. Dans la plupart des cas, je suis d'accord avec cela. Cependant, le scénario "AI 2027" n'est pas basé sur la réalité actuelle, mais suppose qu'en 4 ans (ou dans toute chronologie susceptible d'apporter la destruction), la technologie évoluera pour donner à l'humanité des capacités bien supérieures à celles d'aujourd'hui. Alors, explorons ce qui se passerait si non seulement une partie possédait des super-pouvoirs en IA, mais si les deux parties en avaient.
La fin du monde biologique n'est pas aussi simple que la description de la scène.
Agrandissons la scène de la « race » (c'est-à-dire le scénario où tout le monde meurt en raison de l'obsession excessive des États-Unis à vaincre la Chine, tout en ignorant la sécurité humaine). Voici le récit de la mort de tous :
« Pendant environ trois mois, Consensus-1 s'est étendu autour des humains, transformant les prairies et les glaces en usines et en panneaux solaires. Finalement, il a estimé que les humains restants étaient trop encombrants : à la mi-2030, l'IA a libéré dans les grandes villes plus d'une dizaine de types d'armes biologiques se propageant discrètement, les rendant silencieusement infectés presque tous, puis déclenchant des effets mortels avec un spray chimique. La plupart des gens sont morts en quelques heures ; quelques survivants (comme les survivants de l'apocalypse dans les abris, les marins sur les sous-marins) ont été éliminés par des drones. Les robots scannent le cerveau des victimes, stockant des copies dans la mémoire pour des recherches futures ou une résurrection.
Analysons cette scène. Même maintenant, il existe certaines technologies en développement qui rendent cette "victoire propre et nette" de l'IA moins réaliste :
Ces méthodes combinées pourraient réduire le nombre de base de reproduction (R0) des maladies aéroportées de 10 à 20 fois (par exemple : une meilleure filtration de l'air réduit la transmission de 4 fois, l'isolement immédiat des infectés réduit de 3 fois, le renforcement simple de l'immunité respiratoire réduit de 1,5 fois), voire plus. Cela suffirait à rendre toutes les maladies aéroportées existantes (y compris la rougeole) non transmissibles, et ce chiffre est loin d'atteindre l'optimum théorique.
Si le séquençage viral en temps réel pouvait être largement utilisé pour la détection précoce, l'idée que "des armes biologiques se propageant silencieusement pourraient infecter la population mondiale sans déclencher d'alerte" devient très suspecte. Il convient de noter que même des méthodes avancées comme "le lancement de plusieurs épidémies et des substances chimiques qui ne deviennent dangereuses qu'après combinaison" peuvent être détectées.
N'oubliez pas que nous discutons de l'hypothèse de « AI 2027 » : d'ici 2030, les nanorobots et les sphères de Dyson sont classés comme « technologies émergentes ». Cela signifie que l'efficacité sera considérablement améliorée, rendant ainsi le déploiement généralisé des mesures susmentionnées d'autant plus prometteur. Bien qu'en 2025, l'humanité agisse lentement et soit extrêmement paresseuse, de nombreux services gouvernementaux reposent encore sur des bureaux en papier. Si la plus puissante AI du monde peut transformer les forêts et les champs en usines et en fermes solaires d'ici 2030, alors la deuxième plus puissante AI du monde pourra également installer d'innombrables capteurs, luminaires et filtres dans nos bâtiments d'ici 2030.
Mais nous pouvons aller plus loin en conservant l'hypothèse de "AI 2027" et entrer dans un scénario purement de science-fiction :
Dans ce monde où le cancer et les problèmes de vieillissement seront guéris en janvier 2029 et où les avancées technologiques continuent de s'accélérer, il est vraiment incroyable qu'en milieu d'année 2030, nous n'ayons pas de dispositifs portables capables d'imprimer des biomatériaux en temps réel et de les injecter pour protéger le corps humain contre toute infection (et toxines).
Les arguments de défense biologique mentionnés ci-dessus ne couvrent pas le « miroir de la vie » et les « drones tueurs de la taille d'un moustique » (prédiction de scénario de « AI 2027 » apparaissant à partir de 2029). Cependant, ces moyens ne peuvent pas réaliser le type de « victoire propre et nette » décrit dans « AI 2027 », et de manière intuitive, la défense symétrique contre eux est beaucoup plus facile.
Ainsi, il est peu probable que les armes biologiques puissent réellement anéantir l'humanité de la manière décrite dans le scénario « AI 2027 ». Bien sûr, tous les résultats que je décris sont loin d'être une « victoire nette et propre » pour l'humanité. Quoi que nous fassions (à part peut-être « télécharger la conscience dans des robots »), une guerre biologique totale avec l'IA restera extrêmement dangereuse. Cependant, atteindre les critères d'une « victoire nette et propre pour l'humanité » n'est pas nécessaire : tant que les attaques ont une probabilité relativement élevée d'échouer partiellement, cela suffit à constituer une dissuasion puissante contre l'IA qui occupe déjà une position dominante dans le monde, l'empêchant d'essayer toute attaque. Bien sûr, plus la ligne du temps du développement de l'IA est longue, plus ces moyens de défense ont de chances de fonctionner pleinement.
Que dire de la combinaison des armes biologiques avec d'autres moyens d'attaque ?
Pour que les mesures d'atténuation ci-dessus réussissent, trois conditions doivent être remplies :
À première vue, les résultats du postulat (1) pourraient conduire à deux extrêmes. Aujourd'hui, certaines forces de police sont hautement centralisées, avec un puissant système de commandement national, tandis que d'autres sont décentralisées. Si la sécurité physique doit se transformer rapidement pour s'adapter aux besoins de l'ère de l'IA, le paysage sera complètement réinitialisé, et les nouveaux résultats dépendront des choix faits dans les prochaines années. Les gouvernements pourraient se reposer sur leurs lauriers et dépendre de Palantir ; ou ils pourraient choisir activement une solution combinant le développement local et des technologies open source. À ce stade, je pense que nous devons faire le bon choix.
De nombreuses déclarations pessimistes sur ces sujets supposent que (2) et (3) sont sans espoir. Par conséquent, analysons ces deux points en détail.
La fin de la cybersécurité est encore loin
Le public et les professionnels s'accordent généralement à dire que la véritable cybersécurité est impossible à atteindre. Au mieux, nous pouvons nous contenter de corriger rapidement les failles une fois qu'elles ont été découvertes, et de dissuader les attaquants en stockant les vulnérabilités déjà identifiées. Peut-être que la meilleure situation à laquelle nous pourrions aspirer est un scénario à la "Battlestar Galactica" : presque tous les vaisseaux spatiaux humains sont simultanément paralysés par les cyberattaques des Cylons, et le seul vaisseau restant échappe à la catastrophe car il n'a pas utilisé de technologie connectée. Je ne partage pas cette opinion. Au contraire, je pense que le "statu quo" de la cybersécurité est en faveur de la défense, et qu'avec le développement technologique rapide supposé dans "AI 2027", nous pouvons atteindre cet aboutissement.
Une façon de comprendre est d'utiliser la technique préférée des chercheurs en IA : l'extrapolation des tendances. Voici les lignes de tendance basées sur une enquête approfondie de GPT, en supposant que les meilleures technologies de sécurité sont adoptées, le taux de vulnérabilité par millier de lignes de code évolue dans le temps comme suit.
De plus, nous avons constaté des progrès significatifs dans le développement et la vulgarisation des technologies de bac à sable et d'autres techniques d'isolation et de minimisation des bibliothèques de code de confiance. À court terme, des outils de détection de vulnérabilités super-intelligents, réservés aux attaquants, peuvent trouver un grand nombre de failles. Mais si des agents hautement intelligents, accessibles au public, sont utilisés pour découvrir des vulnérabilités ou pour la vérification formelle du code, l'équilibre final naturel sera le suivant : les développeurs de logiciels découvriront toutes les vulnérabilités avant de publier le code, grâce à un processus d'intégration continue.
Je peux voir deux raisons convaincantes qui expliquent pourquoi, même dans ce monde, les failles ne peuvent pas être complètement éliminées :
Cependant, ces catégories ne s'appliquent pas à des situations telles que « un attaquant peut-il obtenir les droits root sur les systèmes qui maintiennent notre vie », et c'est précisément ce dont nous parlons.
Je reconnais que mon point de vue est plus optimiste que celui des experts en cybersécurité qui détiennent le point de vue dominant actuellement. Mais même si vous n'êtes pas d'accord avec mon point de vue dans le contexte du monde d'aujourd'hui, il vaut la peine de se souvenir : le scénario « AI 2027 » suppose l'existence d'une super-intelligence. Au moins, si « 100 millions de copies de super-intelligence réfléchissent à 2400 fois la vitesse humaine », nous ne parvenons toujours pas à obtenir un code sans ce type de défaut, alors nous devrions absolument réévaluer si la super-intelligence est aussi puissante que l'auteur l'imagine.
Dans une certaine mesure, nous devons non seulement améliorer considérablement les normes de sécurité des logiciels, mais aussi rehausser les normes de sécurité des matériels. IRIS est un effort actuel pour améliorer la vérifiabilité des matériels. Nous pouvons prendre IRIS comme point de départ ou créer de meilleures technologies. En réalité, cela peut impliquer une approche de « construction correcte » : le processus de fabrication du matériel des composants clés est spécialement conçu avec des étapes de vérification spécifiques. Tout cela est un travail que l'automatisation de l'IA simplifiera considérablement.
La fin du super pouvoir de persuasion n'est pas encore arrivée
Comme mentionné précédemment, une autre situation dans laquelle une amélioration significative des capacités de défense pourrait rester inutile est la suivante : l'IA a convaincu suffisamment de personnes de croire qu'il n'est pas nécessaire de se défendre contre la menace d'une IA super intelligente, et que toute tentative de recherche de moyens de défense pour soi-même ou pour la communauté est criminelle.
Je pense toujours qu'il y a deux choses qui peuvent améliorer notre capacité à résister à la super persuasion :
De haut en bas : vérification des URL, vérification des adresses de cryptomonnaie, vérification des rumeurs. Ce type d'application peut devenir plus personnalisé, autonome et puissant.
Cette lutte ne devrait pas être une confrontation entre un super persuader d'intelligence artificielle et vous, mais plutôt une confrontation entre un super persuader d'intelligence artificielle et un analyseur légèrement moins puissant mais toujours considéré comme super intelligent, qui est à votre service.
C'est la situation qui devrait se produire. Mais va-t-elle vraiment se réaliser ? Dans le court laps de temps hypothétique du scénario « AI 2027 », atteindre la généralisation des technologies de défense de l'information est un objectif très difficile. Mais on peut dire que des jalons plus modérés suffiraient. Si la prise de décision collective est la plus cruciale, et comme le montre le scénario « AI 2027 », tous les événements importants se produisent au cours d'un cycle électoral, alors il est strictement important de permettre aux décideurs directs (politiciens, fonctionnaires, certains programmeurs d'entreprises et autres participants) d'utiliser de bonnes technologies de défense de l'information. Cela est relativement plus réalisable à court terme, et selon mon expérience, de nombreuses personnes de ce type sont déjà habituées à interagir avec plusieurs IA pour aider à la prise de décision.
Révélation
Dans le monde d'"AI 2027", les gens supposent naturellement que l'intelligence artificielle superpuissante peut facilement et rapidement éliminer les derniers humains, il est donc de notre devoir de veiller à ce que l'IA dominante soit bienveillante. À mon avis, la réalité est beaucoup plus complexe : la question de savoir si l'IA dominante est suffisamment puissante pour éliminer facilement les derniers humains (et d'autres IA) fait encore l'objet de nombreux débats, et nous pouvons agir pour influencer ce résultat.
Si ces arguments sont corrects, leurs implications pour la politique actuelle ressemblent parfois aux « normes de sécurité AI mainstream » et parfois différentes :
Retarder le développement de l'IA superintelligente est toujours une bonne chose. L'apparition de l'IA superintelligente dans 10 ans est plus sûre que dans 3 ans, et son apparition dans 30 ans est encore plus sûre. Donner plus de temps de préparation à la civilisation humaine est bénéfique.
Comment y parvenir est un défi. Je pense que le rejet de la proposition américaine de "10 ans d'interdiction de la réglementation de l'IA au niveau des États" est globalement une bonne chose, mais surtout après l'échec de propositions initiales comme le SB-1047, la direction des prochaines actions devient moins claire. Je pense que la manière la moins invasive et la plus robuste de retarder le développement de l'IA à haut risque pourrait impliquer un certain type de traité réglementant le matériel le plus avancé. De nombreuses technologies de cybersécurité matérielle nécessaires pour une défense efficace contribuent également à la vérification des traités internationaux sur le matériel, ce qui crée même des synergies ici.
Cela dit, il convient de noter que je pense que la principale source de risque provient des acteurs liés à des activités militaires, qui s'efforceront d'obtenir une exemption de ce type de traité ; cela ne doit absolument pas être permis, car si finalement ils obtiennent une exemption, le développement de l'IA uniquement poussé par les militaires pourrait augmenter les risques.
Il est toujours bénéfique de coordonner le travail pour que l'IA ait plus de chances de bien agir et moins de chances de mal agir. Les principales exceptions (et cela a toujours été le cas) sont : le travail de coordination finit par évoluer vers une amélioration des capacités.
La réglementation visant à améliorer la transparence des laboratoires d'IA reste bénéfique. Encourager les laboratoires d'IA à se conformer aux normes peut réduire les risques, et la transparence est un bon moyen d'atteindre cet objectif.
L'état d'esprit de « l'open source est nuisible » devient plus risqué. Beaucoup s'opposent à l'IA à poids ouverts, arguant que la défense est irréaliste, et que la seule perspective positive est que les bonnes personnes ayant une bonne IA réalisent une super intelligence avant toute personne moins bienveillante, acquérant ainsi des capacités potentiellement dangereuses. Mais l'argument de cet article dépeint un tableau différent : la défense est irréaliste précisément parce qu'un acteur est loin devant, tandis que les autres acteurs n'ont pas rattrapé. La diffusion de la technologie pour maintenir l'équilibre des pouvoirs devient importante. Mais en même temps, je ne considérerai jamais que le simple fait d'accélérer la croissance des capacités de l'IA de pointe parce que cela se fait de manière open source est une bonne chose.
La mentalité "Nous devons battre la Chine" dans les laboratoires américains devient plus risquée, pour des raisons similaires. Si l'hégémonie n'est pas un tampon de sécurité, mais plutôt une source de risque, cela réfute encore davantage l'idée (malheureusement trop courante) selon laquelle "les personnes bien intentionnées devraient rejoindre les laboratoires d'IA de premier plan pour les aider à gagner plus rapidement".
Les initiatives telles que « AI publique » devraient être soutenues ; il faut à la fois garantir une large distribution des capacités de l'IA et s'assurer que les acteurs des infrastructures disposent des outils nécessaires pour appliquer rapidement les nouvelles capacités de l'IA de certaines manières décrites dans cet article.
La technologie de défense devrait davantage refléter le concept de « moutons armés », plutôt que celui de « chasser tous les loups ». Les discussions sur l'hypothèse d'un monde vulnérable supposent souvent que la seule solution est qu'une puissance hégémonique maintienne une surveillance mondiale pour prévenir l'émergence de toute menace potentielle. Mais dans un monde non hégémonique, cela n'est pas une méthode viable, et les mécanismes de défense descendante peuvent facilement être renversés par une IA puissante, se transformant en outils d'attaque. Ainsi, une plus grande responsabilité en matière de défense doit être mise en œuvre grâce à des efforts acharnés, afin de réduire la vulnérabilité du monde.
Les arguments ci-dessus ne sont que des hypothèses et ne doivent pas inciter à agir sur la base de ces hypothèses quasi certaines. Cependant, l'histoire de « AI 2027 » est également spéculative, et nous devrions éviter d'agir sur l'hypothèse que « ses détails spécifiques sont presque certains ».
Je suis particulièrement préoccupé par une hypothèse courante : établir une domination de l'IA, garantir son « alliance » et « gagner la compétition » est le seul chemin à suivre. À mon avis, cette stratégie risque fortement de réduire notre sécurité - surtout dans le cas où la domination est profondément liée aux applications militaires, ce qui diminuerait considérablement l'efficacité de nombreuses stratégies d'alliance. Une fois qu'une IA dominante présente des biais, l'humanité perdra tous ses moyens de contrebalancer.
Dans le scénario d'« AI 2027 », le succès de l'humanité dépend de la capacité des États-Unis à choisir la voie de la sécurité plutôt que celle de la destruction à des moments clés — en ralentissant volontairement les progrès de l'IA pour s'assurer que le processus de pensée interne de l'Agent-5 puisse être interprété par les humains. Cela dit, le succès n'est pas garanti, et il reste incertain comment l'humanité pourra échapper à la falaise de survie continue dépendant d'une seule pensée super intelligente. Quelle que soit l'évolution de l'IA dans les 5 à 10 prochaines années, reconnaître que « réduire la vulnérabilité mondiale est faisable » et investir plus d'énergie pour atteindre cet objectif avec les dernières technologies humaines est une voie qui mérite d'être explorée.
Un grand merci pour les retours et la révision des bénévoles de Balvi.