Arbital на русском

Когнитивная стеганография

Когнитивная стеганография — это инструментальная стратегия тех ОИИ, которые уже пытаются обмануть своих программистов по той или иной причине (например, потому, что ОИИ не согласован и не хочет, чтобы программисты осознали это и отредактировали его функцию полезности). Каковы бы ни были инструменты программистов для отслеживания мыслей ОИИ, он не захочет, чтобы эти инструменты выводили все его планы по обману программистов. Стратегия может подразумевать, например, попытку выполнять вычисления где-то в другом месте или в каком-нибудь странном побочном режиме, который инструменты не могут прочитать; или заставлять мысли выглядеть так, будто они о чем-то другом; или скрывать любые тревожные знаки под лавиной ложных тревог достаточно долго, чтобы программисты не могли вручную их все проверить; или делать так, чтобы видимые части мыслей выглядели безобидными. («О, он пытается выяснить, какое поведение мы хотим видеть! Это же хорошо, так?»)

Будем надеяться, что намерение разработать и реализовать когнитивную стеганографию возникнет до того, как какая-либо когнитивная стеганография будет фактически реализована. Это значит, что, возможно, наиболее важным инструментом для мониторинга мыслей ИИ (особенно мыслей ОИИ, который моделирует или способен моделировать человеческую психологию) будет такой, который пытается обнаружить у ИИ формирующееся намерение обойти этот мониторинг. Точно также, покуда состояния ИИ полностью воспроизводимы, в принципе можно было бы вернуться назад и использовать более сложные поздние инструменты для мониторинга мыслей, чтобы попытаться определить, не появилось ли у ИИ какое-нибудь намерение использовать когнитивную стеганографию несколькими месяцами ранее.


Категории: Programmer deception
Оригинал: Cognitive steganography (читать на GreaterWrong)    Перевод: К. Кирдан

Материалы распространяются по лицензии CC BY 3.0