Неличностный предикат | Arbital на русском

«Неличностный предикат» — возможный метод предотвращения случайного выполнения продвинутым ИИ вычислений, которые сами были бы личностями (было бы потенциально огромной моральной катастрофой, если бы ИИ создал, запустил и остановил внутри себя большое количество разумных программ). Неличностный предикат смотрит на возможное вычисление и возвращает один из двух возможных ответов: «не знаю», либо «точно не личность». Успешный неличностный предикат может (очень часто) возвращать «не знаю» для вычислений, которые на самом деле не являются личностями, но он никогда не возвращает «точно не личность» для чего-то, что является личностью. Другими словами, чтобы решить эту проблему, нам не нужно столь же хорошо знать, что такое сознание, как знать, чем оно не яляется. Нам нужно быть уверенными не в том, что нечто — личность, а в том, что это не личность. Однако для того, чтобы неличностный предикат был полезен, он должен пропускать достаточно много полезных вычислений, чтобы из них можно было построить работающий, могущественный ИИ. (В противном случае «камни — это окей, но все остальное может быть личностью» было бы адекватным неличностным предикатом.) Предсказуемая сложность неличностного предиката — то, что инструментальное давление в сторону точного моделирования людей может иметь тенденцию искать недостатки и лазейки в любом предикате. Подробнее см. «ментальное преступление».