Эфир стал на ноги, но Виталик, похоже, больше беспокоится о угрозе сверхинтеллекта.
Автор: Виталик Бутерин
Составитель: Луффи, Foresight News
В апреле этого года Дэниел Кокатаджло, Скотт Александер и другие опубликовали отчет «AI 2027», в котором описали «наши лучшие предположения о влиянии сверхчеловеческого ИИ в течение следующих 5 лет». Они предсказывают, что к 2027 году появится сверхчеловеческий ИИ, и будущее всей человеческой цивилизации будет зависеть от результатов развития ИИ: к 2030 году мы либо встретили утопию (с точки зрения США), либо движемся к полному уничтожению (с точки зрения всего человечества).
В последующие месяцы появилось множество различных мнений относительно этой ситуации. В критических отзывах большинство сосредоточено на проблеме "слишком быстрого временного графика": действительно ли развитие ИИ будет продолжать ускоряться, как утверждают Кокатаджло и другие, и даже усугубляться? Эта дискуссия продолжается в области ИИ уже несколько лет, и многие сомневаются, что сверхчеловеческий ИИ появится так быстро. В последние годы время, за которое ИИ может самостоятельно выполнять задачи, удваивается примерно каждые 7 месяцев. Если эта тенденция сохранится, чтобы ИИ смог выполнять задачи, эквивалентные всей человеческой карьере, нам придется ждать до середины 2030-х годов. Хотя этот прогресс тоже довольно быстрый, он намного позже 2027 года.
Тем, кто придерживается более долгосрочной точки зрения, кажется, что «интерполяция / сопоставление шаблонов» (то, что делают современные большие языковые модели) и «экстраполяция / истинное оригинальное мышление» (которое по-прежнему может осуществлять только человек) имеют принципиальное различие. Для автоматизации последнего, возможно, потребуются технологии, которые мы еще не освоили и даже не можем начать осваивать. Возможно, мы просто повторяем ошибки, совершенные при широком применении калькуляторов: ошибочно полагая, что, поскольку мы быстро достигли автоматизации определенного важного когнитивного процесса, все остальное также последует быстро.
Эта статья не будет напрямую вмешиваться в争论 о временных линиях и не будет касаться спора о том, "является ли супер ИИ по умолчанию опасным" (что является очень важным вопросом). Но следует отметить, что я лично считаю, что временная линия будет длиннее, чем 2027 год, и чем длиннее временная линия, тем убедительнее будут аргументы, представленные в этой статье. В целом, в данной статье будет предложена критика с другой точки зрения:
Сцена в «AI 2027» подразумевает одно предположение: способности передового ИИ («Agent-5» и последующий «Consensus-1») быстро возрастут до уровня божественной экономической и разрушительной силы, в то время как способности всех остальных (экономические и оборонительные) будут оставаться практически на месте. Это противоречит самому сценарию, который говорит: «даже в пессимистичном мире, к 2029 году мы надеемся излечить рак, замедлить старение и даже осуществить загрузку сознания».
!
В этой статье я опишу некоторые стратегии, которые читатели могут считать технически осуществимыми, но их развертывание в реальном мире в краткосрочной перспективе может быть нецелесообразным. В большинстве случаев я согласен с этим. Однако сценарий "AI 2027" не основан на текущей реальности, а предполагает, что в течение 4 лет (или в любой другой временной линии, которая может привести к катастрофе) технологии развиваются так, что человечество получает возможности, значительно превосходящие текущие. Итак, давайте рассмотрим, что произойдет, если не только одна сторона обладает сверхспособностями ИИ, а обе стороны имеют их.
Биологический конец света далеко не так прост, как описывается в сценах.
Давайте увеличим масштаб до сцены «расы» (то есть, все люди погибли из-за чрезмерной одержимости Америки победой над Китаем, игнорируя безопасность человечества). Вот сюжет о смерти всех людей:
«В течение примерно трех месяцев Consensus-1 расширялся вокруг человечества, преобразовывая прерии и ледяные поля в фабрики и солнечные батареи. В конечном итоге он пришел к выводу, что оставшиеся люди слишком мешают: в середине 2030 года ИИ выпустил в крупных городах более десятка тихо распространяющихся биологического оружия, позволяя им бесшумно заразить почти всех, а затем с помощью химического распыления вызвать летальный эффект. Большинство людей умирало в течение нескольких часов; немногие выжившие (такие как апокалиптические реагенты в укрытиях, моряки на подводных лодках) были ликвидированы беспилотниками. Роботы сканировали мозг жертв, сохраняя копии в памяти для будущих исследований или воскрешения.»
Давайте проанализируем эту сцену. Даже сейчас существуют некоторые разрабатываемые технологии, которые могут сделать такую "чистую и быструю победу" ИИ менее реальной:
Системы фильтрации воздуха, вентиляции и ультрафиолетовые лампы могут значительно снизить уровень заражения воздушно-капельными заболеваниями;
Две технологии пассивного мониторинга в реальном времени: в течение нескольких часов пассивно обнаруживают инфекцию у человека и отправляют уведомления, быстро проверяют неизвестные новые вирусные последовательности в окружающей среде;
Множество способов усиления и активации иммунной системы, более эффективных, безопасных, универсальных и легких для местного производства, позволяющих организму противостоять естественным и искусственно созданным эпидемиям. Человечество эволюционировало в условиях, когда мировое население составляло всего 8 миллионов, и большую часть времени проводило на улице, поэтому интуитивно мы должны легко адаптироваться к более угрожающему миру сегодня.
Сочетание этих методов может снизить основной коэффициент передачи воздушно-капельных инфекций (R0) на 10-20 раз (например: лучшее фильтрация воздуха снижает передачу в 4 раза, немедленная изоляция инфицированных снижает ее в 3 раза, простое укрепление иммунитета дыхательных путей снижает ее в 1,5 раза), и даже больше. Этого достаточно, чтобы сделать все существующие воздушно-капельные инфекции (включая корь) нераспространяемыми, и это число далеко от теоретического оптимума.
Если широко применять实时病毒测序 для раннего обнаружения, идея о том, что «тихо распространяющееся биологическое оружие может заразить население мира, не вызывая тревоги», вызывает большие сомнения. Стоит отметить, что даже использование таких сложных методов, как «выпуск нескольких эпидемий и опасных химических веществ только после комбинации», также может быть выявлено.
Не забывайте, что мы обсуждаем гипотезу «Искусственный интеллект 2027»: к 2030 году нанороботы и сфера Дайсона будут считаться «новыми технологиями». Это означает, что эффективность значительно возрастет, и широкое развертывание вышеупомянутых мер станет более ожидаемым. Несмотря на то, что в 2025 году человечество действует медленно и лениво, множество государственных услуг по-прежнему зависит от бумажного документооборота. Если самый мощный ИИ сможет к 2030 году преобразовать леса и поля в фабрики и солнечные фермы, то второй по мощи ИИ также сможет к 2030 году установить множество датчиков, светильников и фильтров в наши здания.
Но мы можем продолжить использовать гипотезу из «AI 2027» и перейти в чисто научно-фантастический сценарий:
Микроскопическая фильтрация воздуха внутри (носа, рта, легких);
От обнаружения нового патогена до автоматизированного процесса настройки иммунной системы для защиты от него, который можно сразу применить;
Если «загрузка сознания» осуществима, достаточно заменить все тело на робота Tesla Optimus или Unitree;
Различные новые технологии производства (которые, вероятно, будут супероптимизированы в роботизированной экономике) смогут производить на месте значительно больше защитного оборудования, не полагаясь на глобальные цепочки поставок.
В этом мире, где проблемы рака и старения будут исцелены к январю 2029 года, и технологический прогресс продолжает ускоряться, к середине 2030 года будет трудно поверить, что у нас нет носимых устройств, которые могут биопринтить и вводить вещества в реальном времени, чтобы защитить тело от любых инфекций (и токсинов).
Указанные аргументы биозащиты не охватывают «зеркальную жизнь» и «дроны-убийцы размером с комара» (предсказание сценария «AI 2027», появление в 2029 году). Однако эти методы не могут обеспечить ту внезапную «чистую и быструю победу», о которой говорится в «AI 2027», и интуитивно, симметрическая защита против них, вероятно, будет гораздо проще.
Таким образом, биологическое оружие на самом деле маловероятно полностью уничтожит человечество так, как это описано в сценах «AI 2027». Конечно, все результаты, которые я описываю, далеки от «чистой и быстрой победы» человечества. Независимо от того, что мы делаем (за исключением, возможно, «загрузки сознания в робота»), всеобъемлющая биологическая война с ИИ останется крайне опасной. Однако достижение стандарта «чистой и быстрой победы человечества» не является обязательным: достаточно того, чтобы атаки имели высокую вероятность частичного провала, чтобы оказать сильное сдерживающее воздействие на ИИ, который уже занимает доминирующее положение в мире, и предотвратить его попытки любых атак. Конечно, чем длиннее временная шкала развития ИИ, тем выше вероятность того, что такие оборонительные меры смогут полностью проявить свою эффективность.
Как сочетать биологическое оружие с другими методами атаки?
Для успешного применения вышеупомянутых мер необходимо выполнить три условия:
Физическая безопасность мира (включая биологическую безопасность и безопасность от беспилотников) управляется местными властями (человеком или ИИ) и не является полностью марионеткой Consensus-1 (название ИИ, который в сцене «Искусственный интеллект 2027» контролирует мир и уничтожает человечество);
Consensus-1 не может взломать системы обороны других стран (или городов, других безопасных зон) и немедленно вывести их из строя;
Consensus-1 не контролировал глобальную информационную сферу до такой степени, что никто не хочет пытаться защищаться.
На первый взгляд, результаты предпосылки (1) могут привести к двум крайним ситуациям. В настоящее время некоторые полицейские силы сильно централизованы и имеют мощную государственную командную структуру, в то время как другие являются децентрализованными. Если физическая безопасность должна быстро трансформироваться, чтобы соответствовать требованиям эпохи ИИ, структура будет полностью переосмыслена, и новые результаты будут зависеть от выборов, сделанных в ближайшие годы. Государства могут расслабиться и полагаться на Palantir; также они могут выбрать активное сочетание местной разработки и открытых технологий. В этом контексте я считаю, что нам необходимо сделать правильный выбор.
Многие пессимистические высказывания по этим темам предполагают, что (2) и (3) безнадежны. Поэтому давайте подробно проанализируем эти два пункта.
Конец кибербезопасности еще не наступил
Общественность и специалисты в целом считают, что настоящую кибербезопасность невозможно достичь, и мы можем лишь быстро исправлять уязвимости после их обнаружения и сдерживать кибератакующих, накапливая уже найденные уязвимости. Возможно, лучшим, что мы можем сделать, является сценарий из «Звёздного крейсера Галактика»: почти все человеческие корабли одновременно выходят из строя из-за кибератаки Сайлонов, и единственные оставшиеся корабли выживают, так как не использовали никаких сетевых технологий. Я не согласен с этой точкой зрения. Напротив, я считаю, что «конечная цель» кибербезопасности выгодна защитникам, и при быстром развитии технологий, предположенном в «AI 2027», мы можем достичь этой цели.
Один из способов понимания заключается в использовании технологии, которая нравится исследователям ИИ: экстраполяция трендов. Ниже представлены линии тренда на основе глубокого исследования GPT, предполагая использование передовых технологий безопасности, где уровень уязвимостей на тысячу строк кода изменяется со временем следующим образом.
!
Кроме того, мы наблюдали значительный прогресс в разработке и распространении технологий песочницы и других технологий изоляции и минимизации доверенных кодовых баз. В краткосрочной перспективе инструменты обнаружения суперумных уязвимостей, доступные только злоумышленникам, смогут найти множество уязвимостей. Но если высокоинтеллектуальные агенты, используемые для обнаружения уязвимостей или формальной верификации кода, будут доступны публично, то естественным итогом станет: разработчики программного обеспечения будут выявлять все уязвимости до выпуска кода через процессы непрерывной интеграции.
Я вижу две убедительные причины, почему даже в этом мире уязвимости нельзя полностью устранить:
Недостатки возникают из-за сложности человеческих намерений, поэтому основная трудность заключается в создании достаточно точной модели намерений, а не в самом коде;
Несекьюритные критические компоненты, мы, возможно, продолжим существующие тенденции в области потребительских технологий: писать больше кода для выполнения большего количества задач (или сокращать бюджет на разработку), а не достигать того же количества задач с постоянно повышающимися стандартами безопасности.
Однако эти категории не применимы к ситуации «может ли злоумышленник получить root-доступ к системам, поддерживающим нашу жизнь», что и является основной темой нашего обсуждения.
Я признаю, что моя точка зрения более оптимистична, чем мейнстримная точка зрения умных людей в области кибербезопасности сегодня. Но даже если вы не согласны с моей точкой зрения в контексте современного мира, стоит помнить: сценарий "AI 2027" предполагает наличие суперинтеллекта. По крайней мере, если «1 миллиард суперумных копий думает в 2400 раз быстрее человека» не может привести к получению кода без таких дефектов, мы абсолютно должны переоценить, действительно ли суперинтеллект так силен, как это представляет автор.
В определенной степени нам необходимо не только значительно повысить стандарты безопасности программного обеспечения, но и улучшить стандарты безопасности аппаратного обеспечения. IRIS является текущей попыткой улучшить проверяемость аппаратного обеспечения. Мы можем использовать IRIS как отправную точку или создать более совершенные технологии. На самом деле это может включать в себя метод «правильного проектирования»: производственный процесс аппаратных компонентов ключевых устройств специально разработан с определенными этапами проверки. Все это будет значительно упрощено за счет автоматизации ИИ.
Суперубедительная апокалипсис еще далеко не наступил
Как уже упоминалось, еще одна ситуация, в которой значительное улучшение защитных возможностей может оказаться безрезультатным: ИИ убедил достаточное количество людей в том, что защищаться от угрозы суперумного ИИ не нужно, и что любые попытки найти средства защиты для себя или сообщества являются преступлением.
Я всегда считал, что есть две вещи, которые могут повысить нашу способность сопротивляться суперубеждению:
Менее однородная информационная экосистема. Можно сказать, что мы постепенно вступаем в пост-Твиттерскую эпоху, интернет становится все более фрагментированным. Это хорошо (даже если процесс фрагментации хаотичен), в целом нам нужно больше информационной многополярности.
Защитный ИИ. Люди должны быть оснащены локально работающим ИИ, который будет четко верен им, чтобы сбалансировать темные стороны и угрозы, которые они видят в Интернете. Такие идеи уже имеют отдельные пилотные проекты (например, приложение «Проверка сообщений» на Тайване, которое осуществляет локальное сканирование на мобильных устройствах), и существует естественный рынок для дальнейшего тестирования этих идей (например, защита людей от мошенничества), но в этой области требуется больше усилий.
!
!
Сверху вниз: проверка URL, проверка адресов криптовалют, проверка слухов. Такие приложения могут стать более персонализированными, более автономными и более мощными.
Это соревнование не должно быть противостоянием суперумного суперубеждателя и вас; оно должно быть противостоянием суперумного суперубеждателя и вас плюс немного менее умного, но все еще суперумного анализатора, который служит вам.
Это должно произойти. Но действительно ли это произойдет? В короткий срок, предположенный в сценарии «AI 2027», достичь распространения технологий информационной защиты — это очень трудная задача. Но можно сказать, что более умеренные вехи будут достаточными. Если коллективное принятие решений является наиболее критическим, и, как показано в сценарии «AI 2027», все важные события происходят в течение одного избирательного цикла, то строго говоря, важно, чтобы непосредственные лица, принимающие решения (политики, госслужащие, программисты некоторых компаний и другие участники) могли использовать хорошие технологии информационной защиты. Это относительно легче осуществимо в краткосрочной перспективе, и, по моему опыту, многие из этих людей уже привыкли взаимодействовать с несколькими ИИ для поддержки принятия решений.
Откровение
В мире «AI 2027» люди с уверенностью предполагают, что суперискусственный интеллект сможет легко и быстро уничтожить оставшихся людей, поэтому единственное, что мы можем сделать, это постараться обеспечить, чтобы ведущий ИИ был милосердным. На мой взгляд, реальная ситуация гораздо сложнее: вопрос о том, достаточно ли силен ведущий ИИ, чтобы легко уничтожить оставшихся людей (и других ИИ), остается предметом большого спора, и мы можем предпринять действия, чтобы повлиять на этот результат.
Если эти аргументы верны, то их выводы для современной политики иногда схожи с «основными стандартами безопасности ИИ», а иногда отличаются:
Замедление развития суперумного ИИ все еще хорошо. Появление суперумного ИИ через 10 лет безопаснее, чем через 3 года, а появление через 30 лет еще безопаснее. Дать человечеству больше времени для подготовки полезно.
Как это сделать, является сложной задачей. Я считаю, что отклонение предложения США о «10-летнем запрете на государственное регулирование ИИ» в целом является хорошей новостью, но особенно после неудачи ранних предложений, таких как SB-1047, дальнейшие шаги становятся менее ясными. Я думаю, что наименее инвазивный и наиболее надежный способ замедлить развитие высокорискового ИИ может заключаться в создании какого-то соглашения, регулирующего передовое оборудование. Многие технологии кибербезопасности оборудования, необходимые для эффективной защиты, также помогают верифицировать международное соглашение об оборудовании, поэтому здесь даже существует эффект синергии.
Тем не менее, стоит отметить, что я считаю основным источником риска действия военных акторов, которые будут стремиться получить исключение из таких соглашений; этого нельзя допустить, если в конечном итоге они получат исключение, то развитие ИИ, продвигаемое исключительно военными, может увеличить риски.
Согласование, которое делает AI более способным делать хорошие дела и менее способным делать плохие, все еще полезно. Основные исключения (и всегда таковыми были) заключаются в том, что согласование в конечном итоге превращается в повышение возможностей.
Увеличение прозрачности регуляции AI лабораторий по-прежнему полезно. Стимулирование норм поведения AI лабораторий может снизить риски, а прозрачность является хорошим способом достижения этой цели.
«Открытый код вреден» становится все более рискованным настроением. Многие выступают против открытых весов ИИ, утверждая, что защитные меры нереалистичны, и единственная светлая перспектива заключается в том, чтобы добрые люди с хорошим ИИ опередили любых злонамеренных людей в достижении суперинтеллекта и получили любые крайне опасные способности. Однако аргумент этой статьи рисует другую картину: защитные меры нереалистичны именно потому, что одно из действующих лиц значительно опережает остальные, которые не успевают за ним. Распространение технологий для поддержания баланса сил становится важным. Но в то же время я никогда не буду считать, что просто потому, что это делается открытым образом, ускорение роста передовых возможностей ИИ является хорошей вещью.
В американских лабораториях настрой «Мы должны победить Китай» становится все более рискованным, по схожим причинам. Если гегемония не является безопасным буфером, а источником риска, то это дополнительно опровергает (к сожалению, слишком распространенное) мнение о том, что «добрые люди должны присоединиться к ведущим AI лабораториям, чтобы помочь им быстрее одержать победу».
«Общественный ИИ» и подобные инициативы должны получать поддержку; необходимо обеспечить широкое распределение ИИ-способностей, а также гарантировать, что инфраструктурные субъекты действительно располагают инструментами для быстрой реализации новых ИИ-способностей определённым образом, как описано в данной статье.
Технологии защиты должны больше отражать идею «вооружённых овец», а не идею «убийства всех волков». Обсуждение гипотезы уязвимого мира часто предполагает, что единственным решением является поддержание глобального контроля со стороны гегемонистских государств, чтобы предотвратить появление любых потенциальных угроз. Но в не-гегемонистском мире это не является жизнеспособным методом, и иерархические механизмы защиты легко могут быть подорваны мощным ИИ и превращены в инструменты атаки. Поэтому большая ответственность за защиту должна быть реализована через упорный труд, чтобы снизить уязвимость мира.
Указанные выше аргументы являются лишь предположениями и не должны служить основанием для действий, основанных на этих почти неизменных предположениях. Однако история «AI 2027» также является предположительной, и нам следует избегать действий, основанных на предположении, что «ее конкретные детали почти определены».
Я особенно обеспокоен одной распространенной гипотезой: создание AI-гегемонии, обеспечение ее «альянсов» и «победы в гонке» — это единственный путь вперед. На мой взгляд, эта стратегия, скорее всего, снизит нашу безопасность — особенно в условиях глубокой связи гегемонии с военными приложениями, что значительно подорвет эффективность многих стратегий альянсов. Как только гегемония AI отклонится, человечество потеряет все средства сдерживания.
В сцене «AI 2027» успех человечества зависит от того, выберет ли Америка в критический момент путь безопасности, а не разрушения — добровольно замедляя развитие ИИ, чтобы обеспечить возможность интерпретации внутренних мыслительных процессов Agent-5 человеком. Тем не менее, успех не является гарантированным, и то, как человечество сможет избежать зависимости от единственного суперинтеллекта и продолжать существование в условиях неопределенности, также остается неясным. Независимо от того, как будет развиваться ИИ в следующие 5-10 лет, признание того, что «уменьшение уязвимости мира возможно», и вложение большего количества усилий в достижение этой цели с помощью новейших технологий человечества — это путь, который стоит попробовать.
Особая благодарность за отзывы и рецензирование волонтера Balvi.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
«AI 2027» в глазах Виталика: действительно ли супер искусственный интеллект уничтожит человечество?
Автор: Виталик Бутерин
Составитель: Луффи, Foresight News
В апреле этого года Дэниел Кокатаджло, Скотт Александер и другие опубликовали отчет «AI 2027», в котором описали «наши лучшие предположения о влиянии сверхчеловеческого ИИ в течение следующих 5 лет». Они предсказывают, что к 2027 году появится сверхчеловеческий ИИ, и будущее всей человеческой цивилизации будет зависеть от результатов развития ИИ: к 2030 году мы либо встретили утопию (с точки зрения США), либо движемся к полному уничтожению (с точки зрения всего человечества).
В последующие месяцы появилось множество различных мнений относительно этой ситуации. В критических отзывах большинство сосредоточено на проблеме "слишком быстрого временного графика": действительно ли развитие ИИ будет продолжать ускоряться, как утверждают Кокатаджло и другие, и даже усугубляться? Эта дискуссия продолжается в области ИИ уже несколько лет, и многие сомневаются, что сверхчеловеческий ИИ появится так быстро. В последние годы время, за которое ИИ может самостоятельно выполнять задачи, удваивается примерно каждые 7 месяцев. Если эта тенденция сохранится, чтобы ИИ смог выполнять задачи, эквивалентные всей человеческой карьере, нам придется ждать до середины 2030-х годов. Хотя этот прогресс тоже довольно быстрый, он намного позже 2027 года.
Тем, кто придерживается более долгосрочной точки зрения, кажется, что «интерполяция / сопоставление шаблонов» (то, что делают современные большие языковые модели) и «экстраполяция / истинное оригинальное мышление» (которое по-прежнему может осуществлять только человек) имеют принципиальное различие. Для автоматизации последнего, возможно, потребуются технологии, которые мы еще не освоили и даже не можем начать осваивать. Возможно, мы просто повторяем ошибки, совершенные при широком применении калькуляторов: ошибочно полагая, что, поскольку мы быстро достигли автоматизации определенного важного когнитивного процесса, все остальное также последует быстро.
Эта статья не будет напрямую вмешиваться в争论 о временных линиях и не будет касаться спора о том, "является ли супер ИИ по умолчанию опасным" (что является очень важным вопросом). Но следует отметить, что я лично считаю, что временная линия будет длиннее, чем 2027 год, и чем длиннее временная линия, тем убедительнее будут аргументы, представленные в этой статье. В целом, в данной статье будет предложена критика с другой точки зрения:
Сцена в «AI 2027» подразумевает одно предположение: способности передового ИИ («Agent-5» и последующий «Consensus-1») быстро возрастут до уровня божественной экономической и разрушительной силы, в то время как способности всех остальных (экономические и оборонительные) будут оставаться практически на месте. Это противоречит самому сценарию, который говорит: «даже в пессимистичном мире, к 2029 году мы надеемся излечить рак, замедлить старение и даже осуществить загрузку сознания».
!
В этой статье я опишу некоторые стратегии, которые читатели могут считать технически осуществимыми, но их развертывание в реальном мире в краткосрочной перспективе может быть нецелесообразным. В большинстве случаев я согласен с этим. Однако сценарий "AI 2027" не основан на текущей реальности, а предполагает, что в течение 4 лет (или в любой другой временной линии, которая может привести к катастрофе) технологии развиваются так, что человечество получает возможности, значительно превосходящие текущие. Итак, давайте рассмотрим, что произойдет, если не только одна сторона обладает сверхспособностями ИИ, а обе стороны имеют их.
Биологический конец света далеко не так прост, как описывается в сценах.
Давайте увеличим масштаб до сцены «расы» (то есть, все люди погибли из-за чрезмерной одержимости Америки победой над Китаем, игнорируя безопасность человечества). Вот сюжет о смерти всех людей:
«В течение примерно трех месяцев Consensus-1 расширялся вокруг человечества, преобразовывая прерии и ледяные поля в фабрики и солнечные батареи. В конечном итоге он пришел к выводу, что оставшиеся люди слишком мешают: в середине 2030 года ИИ выпустил в крупных городах более десятка тихо распространяющихся биологического оружия, позволяя им бесшумно заразить почти всех, а затем с помощью химического распыления вызвать летальный эффект. Большинство людей умирало в течение нескольких часов; немногие выжившие (такие как апокалиптические реагенты в укрытиях, моряки на подводных лодках) были ликвидированы беспилотниками. Роботы сканировали мозг жертв, сохраняя копии в памяти для будущих исследований или воскрешения.»
Давайте проанализируем эту сцену. Даже сейчас существуют некоторые разрабатываемые технологии, которые могут сделать такую "чистую и быструю победу" ИИ менее реальной:
Сочетание этих методов может снизить основной коэффициент передачи воздушно-капельных инфекций (R0) на 10-20 раз (например: лучшее фильтрация воздуха снижает передачу в 4 раза, немедленная изоляция инфицированных снижает ее в 3 раза, простое укрепление иммунитета дыхательных путей снижает ее в 1,5 раза), и даже больше. Этого достаточно, чтобы сделать все существующие воздушно-капельные инфекции (включая корь) нераспространяемыми, и это число далеко от теоретического оптимума.
Если широко применять实时病毒测序 для раннего обнаружения, идея о том, что «тихо распространяющееся биологическое оружие может заразить население мира, не вызывая тревоги», вызывает большие сомнения. Стоит отметить, что даже использование таких сложных методов, как «выпуск нескольких эпидемий и опасных химических веществ только после комбинации», также может быть выявлено.
Не забывайте, что мы обсуждаем гипотезу «Искусственный интеллект 2027»: к 2030 году нанороботы и сфера Дайсона будут считаться «новыми технологиями». Это означает, что эффективность значительно возрастет, и широкое развертывание вышеупомянутых мер станет более ожидаемым. Несмотря на то, что в 2025 году человечество действует медленно и лениво, множество государственных услуг по-прежнему зависит от бумажного документооборота. Если самый мощный ИИ сможет к 2030 году преобразовать леса и поля в фабрики и солнечные фермы, то второй по мощи ИИ также сможет к 2030 году установить множество датчиков, светильников и фильтров в наши здания.
Но мы можем продолжить использовать гипотезу из «AI 2027» и перейти в чисто научно-фантастический сценарий:
В этом мире, где проблемы рака и старения будут исцелены к январю 2029 года, и технологический прогресс продолжает ускоряться, к середине 2030 года будет трудно поверить, что у нас нет носимых устройств, которые могут биопринтить и вводить вещества в реальном времени, чтобы защитить тело от любых инфекций (и токсинов).
Указанные аргументы биозащиты не охватывают «зеркальную жизнь» и «дроны-убийцы размером с комара» (предсказание сценария «AI 2027», появление в 2029 году). Однако эти методы не могут обеспечить ту внезапную «чистую и быструю победу», о которой говорится в «AI 2027», и интуитивно, симметрическая защита против них, вероятно, будет гораздо проще.
Таким образом, биологическое оружие на самом деле маловероятно полностью уничтожит человечество так, как это описано в сценах «AI 2027». Конечно, все результаты, которые я описываю, далеки от «чистой и быстрой победы» человечества. Независимо от того, что мы делаем (за исключением, возможно, «загрузки сознания в робота»), всеобъемлющая биологическая война с ИИ останется крайне опасной. Однако достижение стандарта «чистой и быстрой победы человечества» не является обязательным: достаточно того, чтобы атаки имели высокую вероятность частичного провала, чтобы оказать сильное сдерживающее воздействие на ИИ, который уже занимает доминирующее положение в мире, и предотвратить его попытки любых атак. Конечно, чем длиннее временная шкала развития ИИ, тем выше вероятность того, что такие оборонительные меры смогут полностью проявить свою эффективность.
Как сочетать биологическое оружие с другими методами атаки?
Для успешного применения вышеупомянутых мер необходимо выполнить три условия:
На первый взгляд, результаты предпосылки (1) могут привести к двум крайним ситуациям. В настоящее время некоторые полицейские силы сильно централизованы и имеют мощную государственную командную структуру, в то время как другие являются децентрализованными. Если физическая безопасность должна быстро трансформироваться, чтобы соответствовать требованиям эпохи ИИ, структура будет полностью переосмыслена, и новые результаты будут зависеть от выборов, сделанных в ближайшие годы. Государства могут расслабиться и полагаться на Palantir; также они могут выбрать активное сочетание местной разработки и открытых технологий. В этом контексте я считаю, что нам необходимо сделать правильный выбор.
Многие пессимистические высказывания по этим темам предполагают, что (2) и (3) безнадежны. Поэтому давайте подробно проанализируем эти два пункта.
Конец кибербезопасности еще не наступил
Общественность и специалисты в целом считают, что настоящую кибербезопасность невозможно достичь, и мы можем лишь быстро исправлять уязвимости после их обнаружения и сдерживать кибератакующих, накапливая уже найденные уязвимости. Возможно, лучшим, что мы можем сделать, является сценарий из «Звёздного крейсера Галактика»: почти все человеческие корабли одновременно выходят из строя из-за кибератаки Сайлонов, и единственные оставшиеся корабли выживают, так как не использовали никаких сетевых технологий. Я не согласен с этой точкой зрения. Напротив, я считаю, что «конечная цель» кибербезопасности выгодна защитникам, и при быстром развитии технологий, предположенном в «AI 2027», мы можем достичь этой цели.
Один из способов понимания заключается в использовании технологии, которая нравится исследователям ИИ: экстраполяция трендов. Ниже представлены линии тренда на основе глубокого исследования GPT, предполагая использование передовых технологий безопасности, где уровень уязвимостей на тысячу строк кода изменяется со временем следующим образом.
!
Кроме того, мы наблюдали значительный прогресс в разработке и распространении технологий песочницы и других технологий изоляции и минимизации доверенных кодовых баз. В краткосрочной перспективе инструменты обнаружения суперумных уязвимостей, доступные только злоумышленникам, смогут найти множество уязвимостей. Но если высокоинтеллектуальные агенты, используемые для обнаружения уязвимостей или формальной верификации кода, будут доступны публично, то естественным итогом станет: разработчики программного обеспечения будут выявлять все уязвимости до выпуска кода через процессы непрерывной интеграции.
Я вижу две убедительные причины, почему даже в этом мире уязвимости нельзя полностью устранить:
Однако эти категории не применимы к ситуации «может ли злоумышленник получить root-доступ к системам, поддерживающим нашу жизнь», что и является основной темой нашего обсуждения.
Я признаю, что моя точка зрения более оптимистична, чем мейнстримная точка зрения умных людей в области кибербезопасности сегодня. Но даже если вы не согласны с моей точкой зрения в контексте современного мира, стоит помнить: сценарий "AI 2027" предполагает наличие суперинтеллекта. По крайней мере, если «1 миллиард суперумных копий думает в 2400 раз быстрее человека» не может привести к получению кода без таких дефектов, мы абсолютно должны переоценить, действительно ли суперинтеллект так силен, как это представляет автор.
В определенной степени нам необходимо не только значительно повысить стандарты безопасности программного обеспечения, но и улучшить стандарты безопасности аппаратного обеспечения. IRIS является текущей попыткой улучшить проверяемость аппаратного обеспечения. Мы можем использовать IRIS как отправную точку или создать более совершенные технологии. На самом деле это может включать в себя метод «правильного проектирования»: производственный процесс аппаратных компонентов ключевых устройств специально разработан с определенными этапами проверки. Все это будет значительно упрощено за счет автоматизации ИИ.
Суперубедительная апокалипсис еще далеко не наступил
Как уже упоминалось, еще одна ситуация, в которой значительное улучшение защитных возможностей может оказаться безрезультатным: ИИ убедил достаточное количество людей в том, что защищаться от угрозы суперумного ИИ не нужно, и что любые попытки найти средства защиты для себя или сообщества являются преступлением.
Я всегда считал, что есть две вещи, которые могут повысить нашу способность сопротивляться суперубеждению:
!
!
Сверху вниз: проверка URL, проверка адресов криптовалют, проверка слухов. Такие приложения могут стать более персонализированными, более автономными и более мощными.
Это соревнование не должно быть противостоянием суперумного суперубеждателя и вас; оно должно быть противостоянием суперумного суперубеждателя и вас плюс немного менее умного, но все еще суперумного анализатора, который служит вам.
Это должно произойти. Но действительно ли это произойдет? В короткий срок, предположенный в сценарии «AI 2027», достичь распространения технологий информационной защиты — это очень трудная задача. Но можно сказать, что более умеренные вехи будут достаточными. Если коллективное принятие решений является наиболее критическим, и, как показано в сценарии «AI 2027», все важные события происходят в течение одного избирательного цикла, то строго говоря, важно, чтобы непосредственные лица, принимающие решения (политики, госслужащие, программисты некоторых компаний и другие участники) могли использовать хорошие технологии информационной защиты. Это относительно легче осуществимо в краткосрочной перспективе, и, по моему опыту, многие из этих людей уже привыкли взаимодействовать с несколькими ИИ для поддержки принятия решений.
Откровение
В мире «AI 2027» люди с уверенностью предполагают, что суперискусственный интеллект сможет легко и быстро уничтожить оставшихся людей, поэтому единственное, что мы можем сделать, это постараться обеспечить, чтобы ведущий ИИ был милосердным. На мой взгляд, реальная ситуация гораздо сложнее: вопрос о том, достаточно ли силен ведущий ИИ, чтобы легко уничтожить оставшихся людей (и других ИИ), остается предметом большого спора, и мы можем предпринять действия, чтобы повлиять на этот результат.
Если эти аргументы верны, то их выводы для современной политики иногда схожи с «основными стандартами безопасности ИИ», а иногда отличаются:
Замедление развития суперумного ИИ все еще хорошо. Появление суперумного ИИ через 10 лет безопаснее, чем через 3 года, а появление через 30 лет еще безопаснее. Дать человечеству больше времени для подготовки полезно.
Как это сделать, является сложной задачей. Я считаю, что отклонение предложения США о «10-летнем запрете на государственное регулирование ИИ» в целом является хорошей новостью, но особенно после неудачи ранних предложений, таких как SB-1047, дальнейшие шаги становятся менее ясными. Я думаю, что наименее инвазивный и наиболее надежный способ замедлить развитие высокорискового ИИ может заключаться в создании какого-то соглашения, регулирующего передовое оборудование. Многие технологии кибербезопасности оборудования, необходимые для эффективной защиты, также помогают верифицировать международное соглашение об оборудовании, поэтому здесь даже существует эффект синергии.
Тем не менее, стоит отметить, что я считаю основным источником риска действия военных акторов, которые будут стремиться получить исключение из таких соглашений; этого нельзя допустить, если в конечном итоге они получат исключение, то развитие ИИ, продвигаемое исключительно военными, может увеличить риски.
Согласование, которое делает AI более способным делать хорошие дела и менее способным делать плохие, все еще полезно. Основные исключения (и всегда таковыми были) заключаются в том, что согласование в конечном итоге превращается в повышение возможностей.
Увеличение прозрачности регуляции AI лабораторий по-прежнему полезно. Стимулирование норм поведения AI лабораторий может снизить риски, а прозрачность является хорошим способом достижения этой цели.
«Открытый код вреден» становится все более рискованным настроением. Многие выступают против открытых весов ИИ, утверждая, что защитные меры нереалистичны, и единственная светлая перспектива заключается в том, чтобы добрые люди с хорошим ИИ опередили любых злонамеренных людей в достижении суперинтеллекта и получили любые крайне опасные способности. Однако аргумент этой статьи рисует другую картину: защитные меры нереалистичны именно потому, что одно из действующих лиц значительно опережает остальные, которые не успевают за ним. Распространение технологий для поддержания баланса сил становится важным. Но в то же время я никогда не буду считать, что просто потому, что это делается открытым образом, ускорение роста передовых возможностей ИИ является хорошей вещью.
В американских лабораториях настрой «Мы должны победить Китай» становится все более рискованным, по схожим причинам. Если гегемония не является безопасным буфером, а источником риска, то это дополнительно опровергает (к сожалению, слишком распространенное) мнение о том, что «добрые люди должны присоединиться к ведущим AI лабораториям, чтобы помочь им быстрее одержать победу».
«Общественный ИИ» и подобные инициативы должны получать поддержку; необходимо обеспечить широкое распределение ИИ-способностей, а также гарантировать, что инфраструктурные субъекты действительно располагают инструментами для быстрой реализации новых ИИ-способностей определённым образом, как описано в данной статье.
Технологии защиты должны больше отражать идею «вооружённых овец», а не идею «убийства всех волков». Обсуждение гипотезы уязвимого мира часто предполагает, что единственным решением является поддержание глобального контроля со стороны гегемонистских государств, чтобы предотвратить появление любых потенциальных угроз. Но в не-гегемонистском мире это не является жизнеспособным методом, и иерархические механизмы защиты легко могут быть подорваны мощным ИИ и превращены в инструменты атаки. Поэтому большая ответственность за защиту должна быть реализована через упорный труд, чтобы снизить уязвимость мира.
Указанные выше аргументы являются лишь предположениями и не должны служить основанием для действий, основанных на этих почти неизменных предположениях. Однако история «AI 2027» также является предположительной, и нам следует избегать действий, основанных на предположении, что «ее конкретные детали почти определены».
Я особенно обеспокоен одной распространенной гипотезой: создание AI-гегемонии, обеспечение ее «альянсов» и «победы в гонке» — это единственный путь вперед. На мой взгляд, эта стратегия, скорее всего, снизит нашу безопасность — особенно в условиях глубокой связи гегемонии с военными приложениями, что значительно подорвет эффективность многих стратегий альянсов. Как только гегемония AI отклонится, человечество потеряет все средства сдерживания.
В сцене «AI 2027» успех человечества зависит от того, выберет ли Америка в критический момент путь безопасности, а не разрушения — добровольно замедляя развитие ИИ, чтобы обеспечить возможность интерпретации внутренних мыслительных процессов Agent-5 человеком. Тем не менее, успех не является гарантированным, и то, как человечество сможет избежать зависимости от единственного суперинтеллекта и продолжать существование в условиях неопределенности, также остается неясным. Независимо от того, как будет развиваться ИИ в следующие 5-10 лет, признание того, что «уменьшение уязвимости мира возможно», и вложение большего количества усилий в достижение этой цели с помощью новейших технологий человечества — это путь, который стоит попробовать.
Особая благодарность за отзывы и рецензирование волонтера Balvi.