È un possibile effetto collaterale
Qualsiasi agente orientato agli obiettivi potrebbe, semplicemente, fare semplicemente cose che raggiungono i suoi obiettivi ignorando gli effetti collaterali che non contano per questi obiettivi.
Se i miei obiettivi includono uno spazio di vita ordinato, potrei trasformare il mio cortile in un bel prato piatto o un pavimento mentre spazzando via il complesso ecosistema della vita che era lì prima, perché non me ne preoccupo particolarmente.
Se gli obiettivi di un'intelligenza artificiale particolarmente potente includono includere attività su larga scala e in qualche modo non si preoccupano particolarmente dell'attuale complesso ecosistema, allora tale ecosistema potrebbe essere spazzato via nel processo. Non ha bisogno di volere o di spazzarci via. Se semplicemente non siamo pertinenti ai suoi obiettivi, allora siamo fatti di materiali e occupiamo spazio che potrebbe voler usare per qualcos'altro.
Siamo una minaccia per la maggior parte degli obiettivi
Qualsiasi agente orientato agli obiettivi potrebbe voler assicurarsi di poter raggiungere i propri obiettivi. Qualsiasi agente intelligente cercherà di anticipare le azioni di altri agenti che potrebbero impedire loro di raggiungere tali obiettivi e adotterà misure per assicurarne comunque il successo. In molti casi è più semplice eliminare quegli altri agenti piuttosto che garantire che i loro sforzi falliscano.
Ad esempio, i miei obiettivi possono includere la conservazione di un sacchetto di zucchero in una casa di campagna in modo da poter preparare i pancake durante la visita senza portare tutti gli ingredienti ogni volta. Tuttavia, se lo lascio lì, è probabile che venga mangiato dai ratti durante l'inverno. Potrei prendere tutti i tipi di precauzioni per conservarlo meglio, ma i ratti sono intelligenti e furbi, e c'è chiaramente una possibilità non banale che riusciranno comunque a raggiungere il loro obiettivo, quindi un'efficace precauzione aggiuntiva è uccidere i topi prima che abbiano una possibilità provare.
Se gli obiettivi di un AI particolarmente potente sono fare X; si può capire che (alcuni?) gli umani potrebbero in realtà non desiderare X ma Y invece. Si può anche facilmente dedurre che alcuni di quegli umani potrebbero fare attivamente cose che impediscono X e / o provano a disattivare l'IA. Fare cose che garantiscano il raggiungimento dell'obiettivo è praticamente quello che fa un agente in cerca di obiettivo; in questo caso se l'esistenza di esseri umani non è strettamente necessaria per l'obiettivo X, eliminarli diventa una solida strategia di riduzione del rischio. Non è strettamente necessario e potrebbe anche prendere ogni sorta di altre precauzioni, ma proprio come nel mio esempio di ratti, gli esseri umani sono intelligenti e furbi e c'è chiaramente una possibilità non banale che riusciranno ancora a raggiungere il loro obiettivi (in modo che X non accada come intende l'IA), quindi un'efficace precauzione aggiuntiva potrebbe essere ucciderli prima che abbiano la possibilità di provarci.