Unicode ha forse 50 spazi
\ U0009 \ u000A- \ u000d \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A- \ u000d \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ U3000
e 6 interruzioni di riga
non solo CRLF, LF, CR, ma anche NEL (U + 0085), PS (U + 2029) e LS (U + 2028).
Forse potrei capire la maggior parte degli spazi e PS ("Separatore di paragrafo"), ma a cosa servono "Next Line" e "Line separator"?
Sembra tutto inventato da un comitato molto grande in cui tutti volevano il proprio spazio e ai leader veniva concessa una pausa di linea ciascuno. Ma seriamente, come lo gestisci quando il tuo linguaggio di programmazione non lo supporta (o fa male come ad esempio Java)?
Pattern.compile2010
metodo per restituire regex funzionanti secondo la definizione degli anni scorsi. Sono anche liberi di creare un metodo Pattern.compileLatestUTS
che affermi esplicitamente che il significato cambierebbe in base alle nuove specifiche.