Come posso rimuovere tutta la punteggiatura da una stringa in JavaScript usando regex?

152

Se ho una stringa con qualsiasi tipo di carattere non alfanumerico al suo interno:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

Come ottengo una versione senza punteggiatura di esso in JavaScript:

"This is an example of a string with punctuation"

javascript regex

— Quentin Fisk
fonte

211

Se vuoi rimuovere la punteggiatura specifica da una stringa, probabilmente sarà meglio rimuovere esplicitamente ciò che desideri

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

Fare quanto sopra ancora non restituisce la stringa come l'hai specificata. Se vuoi rimuovere eventuali spazi extra rimasti dalla rimozione della punteggiatura pazza, allora vorrai fare qualcosa di simile

replace(/\s{2,}/g," ");

Il mio esempio completo:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

Risultati dell'esecuzione del codice nella console firebug:

testo alternativo

— Mike Grace
fonte

4

Le parentesi graffe in regex applicano un quantificatore al precedente, quindi in questo caso sostituisce tra 2 e 100 caratteri di spazi bianchi ( \s) con un singolo spazio. Se si desidera comprimere qualsiasi numero di caratteri di spazio bianco verso il basso per uno, si dovrebbe lasciare fuori il limite superiore in questo modo: replace(/\s{2,}/g, ' ').

— Mike Partridge,

13

Ho aggiunto un paio di caratteri alla lista dei punteggiatura sostituito ( @+?><[]+): replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, ''). Se qualcuno è alla ricerca di un set ancora leggermente più completo.

— timmfin,

9

La stringa.punttuation di Python definisce la punteggiatura come: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~che funziona meglio per me, quindi un'altra alternativa sarebbe:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");

— 01AutoMonkey

1

@ AntoineLizée Concordo sul fatto che sia fuorviante. Aggiornato la risposta. Grazie.

— Mike Grace,

2

Ho provato con "esso?" - non funziona per me ( regex101.com/r/F4j5Qc/1 ), la soluzione giusta è: /[.,\/#!$%\^&*;:{}=\-_ `~ () \?] / g

— Maxim Firsoff il

129

str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

Rimuove tutto tranne i caratteri alfanumerici e gli spazi bianchi, quindi comprime più caratteri adiacenti in singoli spazi.

Spiegazione dettagliata:

\w è qualsiasi cifra, lettera o carattere di sottolineatura.
\s è uno spazio bianco.
[^\w\s] è tutto ciò che non è una cifra, una lettera, uno spazio bianco o un trattino basso.
[^\w\s]|_ è uguale al n. 3 tranne che per i trattini bassi aggiunti di nuovo.

— John Kugelman
fonte

72

Questo eliminerà anche caratteri non inglesi ma per il resto perfettamente alfanumerici come à, é, ö, nonché l'intero alfabeto cirillico.

— Dan Abramov

5

@quemeful Non sono d'accordo, la domanda originale non specifica "solo per l'inglese". SO è piuttosto internazionale, utilizzato in tutto il mondo. Chiunque parli inglese e abbia accesso a Internet può usarlo. Se la lingua non è specificata nella domanda, non dovremmo fare ipotesi. Siamo nel 2017, dannazione!

— Rolf,

1

Inoltre, anche se supporti solo l'inglese, hai parole in prestito come curriculum e nomi di luoghi o persone, quindi non vorrai interrompere la capacità di qualcuno di dire che lavorano a San José (l'ortografia ufficiale) nel cubicolo tra Ramón Chloé.

— Chris Adams,

Questo guasterà con parole come wouldn'tedon't

— Charlie,

71

Ecco i caratteri di punteggiatura standard per US-ASCII: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

Per la punteggiatura Unicode (come virgolette, trattini, ecc.), Puoi facilmente abbinare su intervalli di blocchi specifici. Il blocco di punteggiatura generale è \u2000-\u206Fe il blocco di punteggiatura supplementare è \u2E00-\u2E7F.

Messi insieme e fuggiti correttamente, ottieni il seguente RegExp:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

Dovrebbe corrispondere praticamente a qualsiasi punteggiatura che incontri. Quindi, per rispondere alla domanda originale:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

Fonte US-ASCII: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Fonte Unicode: http://kourge.net/projects/regexp-unicode-block

— Giuseppe
fonte

3

Per la punteggiatura Unicode, i blocchi non sono sufficienti. Devi guardare la categoria generale Punteggiatura e vedrai che non tutte le punteggiatura sono ben posizionate in quei blocchi. Ci sono molte punteggiatura familiari all'interno dei blocchi latini, per esempio.

— nhahtdh,

15

/ [^ A-Za-z0-9 \ s] / g dovrebbe corrispondere a tutti i segni di punteggiatura ma mantenere gli spazi. Quindi è possibile utilizzare .replace(/\s{2,}/g, " ")per sostituire gli spazi extra se è necessario farlo. Puoi testare il regex su http://rubular.com/

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

Aggiornamento : funzionerà solo se l'ingresso è in inglese ANSI.

— adnan2nd
fonte

6

Stai assumendo che la stringa sia ANSI inglese. Non francese con lettere accentate (àéô), né tedesco, turco. Scompariranno anche l'arabo Unicode, il cinese, ecc.

— Rolf,

2

Grazie, non ci ho pensato del tutto.

— adnan2,

10

Ho riscontrato lo stesso problema, questa soluzione ha fatto il trucco ed era molto leggibile:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

Risultato:

"This is an example of a string with punctuation"

Il trucco era creare un set negato . Ciò significa che corrisponde a tutto ciò che non è all'interno dell'insieme, cioè [^abc]- non a, b o c

\Wè una non parola, quindi [^\W]+annullerà tutto ciò che non è una parola char .

Aggiungendo _ (trattino basso) puoi negare anche quello.

Fallo applicare a livello globale /g, quindi puoi eseguire qualsiasi stringa attraverso di esso e cancellare la punteggiatura:

/[^_\W]+/g

Bello e pulito;)

— jacobedawson
fonte

1

Con questo metodo puoi anche cambiare tutte le nuove linee nello spazio.

— nhahtdh,

5

Questo metodo funziona solo in inglese, tutti i caratteri accentati vengono rimossi.

— Nicolas Bernier,

@NicolasBernier sì, è corretto al 100% - Il motore regex di JavaScript è in realtà piuttosto zoppo (vedi: stackoverflow.com/questions/4043307/… ) - sfortunatamente per compiti più complessi (e per creare schemi per parole non inglesi) ci vuole un bel po ' più codice. Tuttavia, per una regex rapida e concisa per

— rimuovere la

Questo è stato il più semplice e ha servito bene il mio scopo.

— James Shrum,

9

Lo metterò qui per gli altri.

Abbina tutti i caratteri di punteggiatura per tutte le lingue:

Costruito dalla categoria di punteggiatura Unicode e aggiunto alcuni simboli comuni della tastiera come $e parentesi e\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

sostituzione di base:

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

aggiunto come spazio

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

aggiunto ^ per invertire patternt in modo che corrisponda non alla punteggiatura ma alle parole stesse

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

per un linguaggio come l'ebraico forse rimuovere "" la virgoletta singola e doppia e fare di più pensando ad essa.

usando questo script:

passaggio 1: seleziona in Firefox tenendo premuto il controllo una colonna di numeri U + 1234 e copiala, non copiare U + 12456 sostituiscono l'inglese

passo 2 (ho fatto in Chrome) trovare un po 'di textarea e incollarlo in esso quindi fare clic con il tasto destro e fare clic su Controlla quindi puoi accedere all'elemento selezionato con $ 0.

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

il passaggio 3 ha copiato le prime lettere sugli ascii come caratteri separati non intervalli perché qualcuno potrebbe aggiungere o rimuovere singoli caratteri

— Shimon Doodkin
fonte

7

In un linguaggio compatibile con Unicode, la proprietà del carattere Punteggiatura Unicode è \p{P}- che di solito è possibile abbreviare \pPe talvolta espandere \p{Punctuation}per leggibilità.

Stai usando una libreria di espressioni regolari compatibile Perl?

— tchrist
fonte

8

Sfortunatamente JS non è compatibile con Perl. L'altro problema è che quando l'ho provato non ha catturato tutta la punteggiatura nella stringa di test di @ Quentin => mikegrace.s3.amazonaws.com/forums/stack-overflow/…

— Mike Grace

4

È possibile utilizzare la libreria XRegExp per ottenere questa sintassi estesa.

— Eirik Birkeland,

7

Se si desidera rimuovere la punteggiatura da qualsiasi stringa, è necessario utilizzare la Pclasse Unicode.

Tuttavia, poiché le classi non sono accettate nel RegEx JavaScript, è possibile provare questo RegEx che dovrebbe corrispondere a tutti i segni di punteggiatura. Corrisponde alle seguenti categorie: Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So Generale Punteggiatura supplementare Punteggiatura CJK Simboli e punteggiatura Numeri cuneiformi e Punteggiatura.

L'ho creato usando questo strumento online che genera espressioni regolari appositamente per JavaScript. Questo è il codice per raggiungere il tuo obiettivo:

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫！-／：-＠［-｀｛-･￠-￦￨-￮-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)

Espandi frammento

— Salvatore
fonte

5

Per le stringhe en-US (inglese americano) questo dovrebbe essere sufficiente:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

Tieni presente che se supporti UTF-8 e personaggi come cinese / russo e tutti, anche questi li sostituiranno, quindi devi davvero specificare ciò che desideri.

— meder omuraliev
fonte

3

se stai usando lodash

_.words('This, is : my - test,line:').join(' ')

Questo esempio

_.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')

— Pankaj Avhad
fonte

2

Come da elenco di punteggiatura di Wikipedia ho dovuto costruire la seguente regex che rileva punteggiatura:

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷×ºª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]

— Tushar Goswami
fonte

2

Se usi questo regex, dovresti anche sfuggire al delimitatore regex. Per esempio, se si utilizza /(più comune), allora dovrebbe essere sfuggito all'interno della classe di caratteri sopra con l'aggiunta di un back-slash prima, in questo modo: \/. Questo è come si dovrebbe utilizzare:

"String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷×ºª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,"")

. A proposito, non vedo il backtick (`) da nessuna parte lì dentro, come mai?

— Rolf,

manca. Sembra difficile trovare un elenco di tutte le punteggiatura.

— Alex,

1

Se vuoi conservare solo alfabeti e spazi, puoi fare:

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

— codaddict
fonte

8

Non tirerà fuori qualcosa di più della semplice punteggiatura? Unicode e simili?

— Alex

3

Intendi "solo alfabeti e spazi inglesi "

— Rolf,

0

Dipende da cosa stai cercando di tornare. L'ho usato di recente:

return text.match(/[a-z]/i);

— Amanda Koster
fonte