Lovelace Test 2.0 è stato usato con successo in ambito accademico?

Nell'ottobre 2014, il Dr. Mark Riedl ha pubblicato un approccio al test dell'intelligenza artificiale, chiamato "Lovelace Test 2.0" , dopo essere stato ispirato dall'originale Lovelace Test (pubblicato nel 2001). Mark credeva che il test Lovelace originale sarebbe stato impossibile da superare, e quindi ha suggerito una versione più debole e più pratica.

Lovelace Test 2.0 presuppone che un'intelligenza artificiale sia intelligente, deve mostrare creatività. Dal documento stesso:

Il test Lovelace 2.0 è il seguente: l'agente artificiale a è contestato come segue:

a deve creare un artefatto o di tipo t;

o deve conformarsi a una serie di vincoli C in cui ci ∈ C è un criterio esprimibile in linguaggio naturale;

un valutatore umano h, avendo scelto t e C, è convinto che o sia un'istanza valida di te incontra C; e

un arbitro umano r determina che la combinazione di te C non è irrealistica per un essere umano medio.

Poiché è possibile per un valutatore umano escogitare alcuni vincoli piuttosto facili da superare per un'intelligenza artificiale, si prevede quindi che il valutatore umano continui a presentare vincoli sempre più complessi per l'IA fino a quando l'IA non fallisce. Lo scopo di Lovelace Test 2.0 è confrontare la creatività di diversi IA, non fornire una linea di demarcazione definita tra "intelligenza" e "non intelligenza" come farebbe il test di Turing.

Tuttavia, sono curioso di sapere se questo test è stato effettivamente utilizzato in un ambiente accademico o al momento è visto solo come un esperimento mentale. Il test Lovelace sembra facile da applicare in contesti accademici (devi solo sviluppare alcuni vincoli misurabili che puoi usare per testare l'agente artificiale), ma può anche essere troppo soggettivo (gli esseri umani possono non essere d'accordo sul merito di determinati vincoli e se un artefatto creativo prodotto da un'intelligenza artificiale in realtà incontra il risultato finale).

history intelligence-testing

— Sinistra SE il 10_6_19
fonte

No.

TL; DR: Lovelace Test 2.0 è molto vago, il che lo rende inadatto alla valutazione dell'intelligenza. È anche generalmente ignorato dai ricercatori di creatività computazionale, che hanno già i propri test per valutare la creatività.

Risposta più lunga: Secondo Google Scholar, ci sono 10 riferimenti al documento "Lovelace Test 2.0". Tutti questi riferimenti esistono semplicemente per indicare che esiste Lovelace Test 2.0. In effetti, almeno due articoli che ho consultato ( un nuovo approccio per identificare un comportamento autocosciente simile all'uomo e FraMoTEC: un framework per la costruzione modulare di task-ambiente per la valutazione di sistemi di controllo adattivo ) hanno proposto invece i propri test.

Uno degli autori che ha scritto l'articolo di FraMoTEC ha anche scritto la sua tesi su FraMoTEC e ha indirettamente criticato il Lovelace Test 2.0 e altri simili test simili:

Il problema di Piaget-MacGyver Room [Bringsjord e Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] e il problema di Toy Box [Johnston, 2010] sono tutti accompagnati dall'avvertenza di essere definiti in modo molto vago: è probabile che questi metodi di valutazione vengano con una valutazione ragionevole per l'intelligenza, ma è molto difficile confrontare due diversi agenti (o controller) che partecipano alle proprie valutazioni specifiche del dominio, che è ciò che accade spesso quando gli agenti sono personalizzati per superare valutazioni specifiche.

Un altro grosso problema con Lovelace Test 2.0 è che vi è una proliferazione di altri test per "misurare" la creatività dell'IA. Valutazione di valutazione: valutare i progressi nella ricerca sulla creatività computazionale , pubblicata da Anna Jordanous nel 2011 (3 anni prima dell'invenzione del Lovelace Test 2.0) ha analizzato documenti di ricerca sulla creatività dell'IA e ha scritto:

Dei 18 articoli che hanno applicato metodologie di valutazione della creatività per valutare la creatività del loro sistema, nessuna metodologia è emersa come standard in tutta la comunità. La struttura creativa del treppiede di Colton ( Colton 2008 ) è stata utilizzata più spesso (6 usi), con 4 articoli che utilizzano i criteri empirici di Ritchie ( Ritchie 2007 ).

Ciò lascia 10 documenti con vari metodi di valutazione della creatività.

L'obiettivo della "Valutazione di valutazione" era standardizzare il processo di valutazione della creatività, per evitare la possibilità che il campo ristagnasse a causa della proliferazione di così tanti test di creatività. Anna Jordanous è rimasta ancora interessata alla valutazione dei test di creatività, pubblicando articoli come "Fare un passo indietro verso i progressi: definire gli standard per la meta-valutazione della creatività computazionale" e quattro PPPPerspectives on Computational Creativity .

"Evaluating Evaluation" fornisce alcuni commenti per spiegare la proliferazione di sistemi per valutare la creatività:

Gli standard di valutazione non sono facili da definire. È difficile valutare la creatività e ancora più difficile descrivere il modo in cui valutiamo la creatività, sia nella creatività umana che in quella computazionale. In effetti, anche la definizione stessa di creatività è problematica (Plucker, Beghetto e Dow 2004). È difficile identificare ciò che comporta essere "creativi", quindi non ci sono parametri di riferimento o verità fondamentali su cui misurare.

Il fatto che esistano già così tanti test di creatività (nella misura in cui Jordanous può fare una carriera accademica studiandoli) significa che è molto difficile per qualsiasi nuovo test (come il Lovelace Test 2.0) persino essere notato (molto meno citato ). Perché dovresti usare qualcosa come Lovelace Test 2.0 quando ci sono così tanti altri test che potresti usare invece?

— Sinistra SE il 10_6_19
fonte