Implementa glob Matcher


15

Implementa una funzione di modello e stringa da abbinare, restituisce vero se il modello corrisponde alla stringa INTERA, altrimenti falso.

La nostra sintassi del pattern glob è:

  • ? corrisponde a qualsiasi personaggio
  • + corrisponde a uno o più caratteri
  • * corrisponde a zero o più caratteri
  • \ fughe

Regole:

  • Nessuna valutazione, nessuna conversione in espressione regolare, nessuna chiamata a una funzione glob di sistema.
  • Gli I / O non sono richiesti: puoi semplicemente scrivere una funzione
  • Vittorie più brevi

Esempi:

glob('abc', 'abc') => true
glob('abc', 'abcdef') => false IMPORTANT!
glob('a??', 'aww') => true
glob('a*b', 'ab') => true
glob('a*b', 'agwijgwbgioeb') => true
glob('a*?', 'a') => false
glob('?*', 'def') => true
glob('5+', '5ggggg') => true
glob('+', '') => false
glob('a\*b', 'a*b') => true

Ecco un suggerimento per iniziare: http://it.wikipedia.org/wiki/Backtracking


1
Posso suggerire un tag aggiuntivo "pattern-matching"?
dmckee --- ex gattino moderatore

1
Potresti chiarire cosa intendi con "nessuna funzione standard"? Che non puoi chiamare funzioni dalla libreria standard? Come dovrebbe funzionare?
sepp2k,

Alcuni esempi di fuga per favore? ("\")
Eelvex,

Risposte:


4

Golfscript - 82 caratteri

{1,\@n+:|;{:<;{:I)I|="\\+*?"[<]+?[{|=<={I))}*}I~{I\C}{}.{;}]=~}:C%}/{|>'*'-n=},}:g

Presuppone che non ci siano nuove righe nelle stringhe. Restituisce un array vuoto per false e un array non vuoto per true (coerente con la definizione golfscript di true / false).

Questa è una soluzione non ricorsiva (tranne che per i messaggi consecutivi *), che mantiene un elenco delle posizioni nella stringa del modello itale che pattern[0..i]corrisponda string[0..cur].

Questo ha il potenziale per funzionare per molto tempo. È possibile aggiungere .&dopo :C%per evitare questo.


5

Haskell, 141 caratteri

c('\\':a:z)s=a&s>>=c z
c(a:z)s=a%s>>=c z
c[]s=[null s]
p&(a:z)|a==p=[z]
_&_=[]
'?'%(a:z)=[z]
'*'%a=a:'+'%a
'+'%(a:z)='*'%z
l%a=l&a
g=(or.).c

Funziona con tutti gli input, sia i pattern che le stringhe da abbinare. Gestisce la barra rovesciata finale nel modello come una corrispondenza letterale (il comportamento non era specificato.)

Questo può essere eseguito con il seguente driver di test:

main = do
    globtest "abc" "abc"    True
    globtest "abc" "abcdef" False
    globtest "a??" "aww"    True
    globtest "a*b" "ab"     True
    globtest "a*b" "agwijgwbgioeb" True
    globtest "a*?" "a"      False
    globtest "?*" "def"     True
    globtest "5+" "5ggggg"  True
    globtest "+" ""         False
    globtest "a\\*b" "a*b"  True
  where
    globtest p s e =
      if g p s == e
        then putStrLn "pass"
        else putStrLn$"fail: g " ++ show p ++ " " ++ show s ++ " /= " ++ show e

Aggiornamento: ho scritto un post sul blog su questa particolare risposta, poiché penso che mostri bene come Haskell codifica così facilmente il problema.


  • Modifica: (181 -> 174) sostituito de mcon operatori
  • Modifica: (174 -> 151) rin linea inc
  • Modifica: (151 -> 149) ha rimosso un'opzione generata inutilmente nel +caso
  • Modifica: (149 -> 141) ha rimosso una clausola non necessaria per %, che è stata gestita da&

2

PHP - 275 243 caratteri

<?function g($P,$I){$o='array_shift';if(@$I[0]==="")return 0;for(;$P;$o($P)){$p=$P[0];if($p=='?'|$p=='+'&&@$N===$o($I))return 0;if($p=='+'|$p=='*'&&$I&&g($P,array_slice($I,1)))return 1;if(!strpos(" ?+*\\",$p)&&$p!==$o($I))return 0;}return!$I;}

Ungolfed:

<?php

function g($P,$I) {
        if ($I && $I[0] === "") return false;
        for(;$P;array_shift($P)) {
                $p = $P[0];
                if( $p == '?' || $p == '+') {
                        if (NULL === array_shift($I)) {
                                return false;
                        }
                }
                if( $p=='+' || $p=='*' ) {
                        if ($I && g($P, array_slice($I,1))) {
                                return true;
                        }
                }
                if (!strpos(" ?+*\\",$p) && $p !== array_shift($I)) {
                        return false;
                }
        }
        return !$I;
}

function my_glob($pattern,$subject) {
    return !!g(str_split($pattern),str_split($subject));
}

2

Eccessivamente Verbose Python ( 384 367 caratteri)

t=lambda a:a[1:] 
h=lambda a:a[0] 
n=lambda p,s:s and(h(p)==h(s)and m(t(p),t(s))) 
def m(p,s): 
 if not p: 
  return not s 
 else: 
  return { 
   '?':lambda p,s:s and m(t(p),t(s)), 
   '+':lambda p,s:s and(m(p,t(s))or m(t(p),t(s))), 
   '*':lambda p,s:m(t(p),s)or(s and m(p,t(s))), 
   '\\':lambda p,s:n(t(p),s), 
  }.get(h(p),n)(p,s) 
glob=lambda p,s:not not m(p,s)

Non è il più corto, ma è bello e funzionale. La cosa del dict di spedizione nel mezzo potrebbe presumibilmente essere riscritta come una disgiunzione su (h(p) == '?') and (? lambda body)cose di tipo. Definire che l'operatore h mi costa alcuni caratteri senza alcun vantaggio, ma è bello avere una parola chiave per testa.

Mi piacerebbe provare a scriverlo dopo se il tempo lo consente.

modifica: rimosso il terzo ramo non necessario nel caso '*' dopo aver letto la risposta ruby ​​di user300


2

Shorter Snappier Python 2.6 (272 caratteri)

golfed:

n=lambda p,s:p[0]==s[0]and m(p[1:],s[1:]) 
def m(p,s): 
 q,r,t,u=p[0],p[1:],s[0],s[1:] 
 return any((q=='?'and(t and m(r,u)),q=='+'and(t and(m(p,u)or m(r,u))),q=='*'and(m(r,s)or(t and m(p,u))),q=='\\'and n(r,s),q==t==0))or n(p,s) 
glob=lambda*a:m(*[list(x)+[0]for x in a])

ungolfed:

TERMINATOR = 0 

def unpack(a): 
    return a[0], a[1:] 

def terminated_string(s): 
    return list(s) + [TERMINATOR] 

def match_literal(p, s): 
    p_head, p_tail = unpack(p) 
    s_head, s_tail = unpack(s) 
    return p_head == s_head and match(p_tail, s_tail) 

def match(p, s): 
    p_head, p_tail = unpack(p) 
    s_head, s_tail = unpack(s) 
    return any(( 
        p_head == '?' and (s_head and match(p_tail, s_tail)), 
        p_head == '+' and (s_head and(match(p, s_tail) or match(p_tail, s_tail))), 
        p_head == '*' and (match(p_tail, s) or (s_head and match(p, s_tail))), 
        p_head == '\\' and match_literal(p_tail, s), 
        p_head == s_head == TERMINATOR, 
    )) or match_literal(p, s) 

def glob(p, s): 
    return match(terminated_string(p), terminated_string(s))

con:

  • pasticcio logico valutato pigramente!
  • Corde in stile C!
  • carino idioma confronto multiplo!
  • un sacco di brutti!

Ringraziamo la risposta di user300 per illustrare come le cose sono semplificate se è possibile ottenere una sorta di valore di terminatore quando si estrae la testa da una stringa vuota.

Vorrei che il disimballaggio della testa / coda potesse essere eseguito in linea durante la dichiarazione degli argomenti di m. allora m potrebbe essere una lambda, proprio come i suoi amici n e glob. python2 non può farlo, e dopo un po 'di lettura, sembra che neanche python3. guai.

test:

test_cases = { 
    ('abc', 'abc') : True, 
    ('abc', 'abcdef') : False, 
    ('a??', 'aww') : True, 
    ('a*b', 'ab') : True, 
    ('a*b', 'aqwghfkjdfgshkfsfddsobbob') : True, 
    ('a*?', 'a') : False, 
    ('?*', 'def') : True, 
    ('5+', '5ggggg') : True, 
    ('+', '') : False, 
}   
for (p, s) in test_cases: 
    computed_result = glob(p, s) 
    desired_result = test_cases[(p, s)] 
    print '%s %s' % (p, s) 
    print '\tPASS' if (computed_result == desired_result) else '\tFAIL' 

2

Rubino - 199 171

g=->p,s{x=(b=->a{a[1..-1]})[p];y=s[0];w=b[s];v=p[0];_=->p,s{p[0]==y&&g[x,w]}
v==??? g[x,y&&w||s]:v==?+? y&&g[?*+x,w]:v==?*?
y&&g[p,w]||g[x,s]:v==?\\? _[x,s]:v ? _[p,s]:!y}

Ungolfed:

def glob(pattern, subject)
        b=->a{a[1..-1]}
        _=->p,s{ p[0]==s[0] && glob(b[p],b[s]) }
        ({
                ??=>->p,s { glob(b[p], s[0] ? b[s] : s) },
                ?+=>->p,s { s[0] && glob(?*+b[p], b[s]) },
                ?*=>->p,s { s[0] && glob(p,b[s]) || glob(b[p],s) },
                ?\\=>->p,s{ _[b[p],s] },
                nil=>->p,s{ !subject[0] }
        }[pattern[0]] || _)[pattern, subject]
end

test:

p glob('abc', 'abc')
p glob('abc', 'abcdef')
p glob('a??', 'aww')
p glob('a*b', 'ab')
p glob('a*b', 'agwijgwbgioeb')
p glob('a*?', 'a')
p glob('?*', 'def')
p glob('5+', '5ggggg')
p glob('+', '')

Ispirato dalla risposta di Roobs


non so nulla di ruby, ma dal tuo codice ho imparato che l'accesso agli indici fuori limite restituisce zero. così facendo scoppiare una stringa vuota si ottiene un valore nullo che può essere usato come simbolo del terminatore di stringa. C-style! nifty! immagino che possa essere imitato in Python passando ogni stringa di input attraversolambda s : list(s)+[None]
roobs

Dal suo aspetto, Ruby ha incorporato la corrispondenza del modello. È sicuramente utile per questo tipo di problema.
Jonathan M Davis,

In realtà si ??tratta di caratteri letterali, =>sono separatori chiave / valore in Ruby Hash e ->avvia un lambda :-) ( { ?? => ->{...} }è un hash con chiave "?"e un lambda come valore). :-)
Arnaud Le Blanc,

2

Funzione C - 178 caratteri necessari

Compilato con GCC, questo non produce avvisi.

#define g glob
int g(p,s)const char*p,*s;{return*p==42?g(p+1,s)||(*s&&g(p,
s+1)):*p==43?*s&&(g(p+1,++s)||g(p,s)):*p==63?*s&&g(p+1,s+1)
:*p==92?*++p&&*s++==*p++&&g(p,s):*s==*p++&&(!*s++||g(p,s));}
#undef g

La prima e l'ultima riga non sono incluse nel conteggio dei caratteri. Sono forniti solo per comodità.

Soffiato-up:

int glob(p,s)
const char *p, *s; /* K&R-style function declaration */
{
    return
        *p=='*'  ? glob(p+1,s) || (*s && glob(p,s+1)) :
        *p=='+'  ? *s && (glob(p+1,++s) || glob(p,s)) :
        *p=='?'  ? *s && glob(p+1,s+1)                :
        *p=='\\' ? *++p && *s++==*p++ && glob(p,s)    :
        *s==*p++ && (!*s++ || glob(p,s));
}

2

JavaScript - 259 caratteri

La mia implementazione è molto ricorsiva, quindi lo stack traboccerà se viene utilizzato un modello estremamente lungo. Ignorando il segno più (che avrei potuto ottimizzare ma non ho scelto per semplicità), per ogni token viene utilizzato un livello di ricorsione.

glob=function f(e,c){var b=e[0],d=e.slice(1),g=c.length;if(b=="+")return f("?*"+d,c);if(b=="?")b=g;else if(b=="*"){for(b=0;b<=g;++b)if(f(d,c.slice(b)))return 1;return 0}else{if(b=="\\"){b=e[1];d=e.slice(2)}b=b==c[0]}return b&&(!d.length&&!g||f(d,c.slice(1)))}

La funzione a volte restituisce un numero anziché un valore booleano. Se questo è un problema, puoi usarlo come !!glob(pattern, str).


Ungolfed (non minified, piuttosto) per servire come risorsa utile:

function glob(pattern, str) {
    var head = pattern[0], tail = pattern.slice(1), strLen = str.length, matched;
    if(head == '+') {
        // The plus is really just syntactic sugar.
        return glob('?*' + tail, str);
    }
    if(head == '?') { // Match any single character
        matched = strLen;
    } else if(head == '*') { // Match zero or more characters.
        // N.B. I reuse the variable matched to save space.
        for(matched = 0; matched <= strLen; ++matched) {
            if(glob(tail, str.slice(matched))) {
                return 1;
            }
        }
        return 0;
    } else { // Match a literal character
        if(head == '\\') { // Handle escaping
            head = pattern[1];
            tail = pattern.slice(2);
        }
        matched = head == str[0];
    }
    return matched && ((!tail.length && !strLen) || glob(tail, str.slice(1)));
}

Si noti che l'indicizzazione in caratteri di una stringa come per gli elementi dell'array non fa parte del vecchio standard linguistico (ECMAScript 3), quindi potrebbe non funzionare nei browser meno recenti.


1

Python (454 caratteri)

def glob(p,s):
  ps,pns=[0],[]
  for ch in s:
    for i in ps:
      if i<0:
        pns+=[i]
        if i>-len(p) and p[-i]==ch:pns+=[-i]
      elif i<len(p):
        pc=p[i]
        d={'?':[i+1],'+':[i,-i-1],'*':[i+1,-i-1]}
        if pc in d:pns+=d[pc]
        else:
          if pc=='\\':pc=p[i+1]
          if pc==ch:pns+=[i+1]
    ps,pns=pns,[]
  if (s or p in '*') and (len(p) in ps or -len(p)+1 in ps or -len(p) in ps): return True
  return False

1

D: 363 personaggi

bool glob(S)(S s,S t){alias front f;alias popFront p;alias empty e;while(!e(s)&&!e(t)){switch(f(s)){case'+':if(e(t))return false;p(t);case'*':p(s);if(e(s))return true;if(f(s)!='+'&&f(s)!='*'){for(;!e(t);p(t)){if(f(s)==f(t)&&glob(s,t))return true;}}break;case'\\':p(s);if(e(s))return false;default:if(f(s)!=f(s))return false;case'?':p(s);p(t);}}return e(s)&&e(t);}

Più leggibilmente:

bool glob(S)(S s, S t)
{
    alias front f;
    alias popFront p;
    alias empty e;

    while(!e(s) && !e(t))
    {
        switch(f(s))
        {
            case '+':
                if(e(t))
                    return false;

                p(t);
            case '*':
                p(s);

                if(e(s))
                    return true;

                if(f(s) != '+' && f(s) != '*')
                {
                    for(; !e(t); p(t))
                    {
                        if(f(s) == f(t) && glob(s, t))
                            return true;
                    }
                }

                break;
            case '\\':
                p(s);

                if(e(s))
                    return false;
            default:
                if(f(s) != f(s))
                    return false;
            case '?':
                p(s);
                p(t);
        }
    }

    return e(s) && e(t);
}

1

golfscript

{{;;}2$+}:x;{x if}:a;{x\if}:o;{1$1$}:b;{(@(@={\m}a}:r;{b(63={\({\m}a}a{b(43={\({\b m{'+'\+m}o}a}a{b(42={b m{\({\'*'\+m}a}o}a{b(92={r}a{b 0=0=\0=0=*{r}o}o}o}o}o}:m;{[0]+\[0]+m}:glob;

è costruito da funzioni che consumano due argomenti dallo stack, se p, e producono un singolo valore di ritorno booleano. c'è un po 'di confusione in giro per renderlo compatibile con i pigri e pigri o gli operatori. dubito davvero che questo approccio sia quasi ottimale, o addirittura nella giusta direzione.

ci sono anche alcuni momenti piacevolmente stupidi, come saltar '*'fuori uno schema, consumando '*'in un confronto, solo per rendersi conto che il ramo successivo non corrisponde. per scendere dall'altro ramo, abbiamo bisogno del motivo con il '*'davanti, ma abbiamo consumato quel motivo originale quando abbiamo fatto scoppiare il '*', e abbiamo consumato il '*', quindi per riprenderci il motivo cariciamo una nuova stringa lucida costante '*'e anteporre al suo posto. diventa ancora più brutto perché per qualche motivo la corrispondenza dei caratteri deve essere eseguita con valori ascii, ma è necessario ripagare nuovamente sulla stringa con stringhe.

golfscript meno golfizzato

{[0]+}:terminate_string;
{{;;}2$+if}:_and;
{{;;}2$+\if}:_or;
{1$1$}:branch;
{(@(@={\match}_and}:match_literal;
{0=0=\0=0=*}:match_terminator;
{(92={match_literal}_and}:match_escape;
{(63={\({\match}_and}_and}:match_wildcard;
{(43={\({\branch match{'+'\+match}_or}_and}_and}:match_wildcard_plus;
{(42={branch match{\({\'*'\+match}_and}_or}_and}:match_wildcard_star;
{branch match_wildcard{branch match_wildcard_plus{branch match_wildcard_star{branch match_escape{branch match_terminator{match_literal}_or}_or}_or}_or}_or}:match;
{terminate_string\terminate_string match}:glob;

test

{2$2$glob = "test passed: " "test FAILED: " if print \ print ' ; ' print print "\n" print}:test_case;

'abc' 'abc' 1 test_case
'abc' 'abcdef' 0 test_case
'a??' 'aww' 1 test_case
'a*b' 'ab' 1 test_case
'a*b' 'agwijgwbgioeb' 1 test_case
'a*?' 'a' 0 test_case
'?*' 'def' 1 test_case
'5+' '5ggggg' 1 test_case
'+' '' 0 test_case

1

C # (251 caratteri)

static bool g(string p,string i){try{char c;System.Func<string,string>s=t=>t.Remove(0,1);return p==i||((c=p[0])==92?p[1]==i[0]&g(s(s(p)),s(i)):c==42?g(s(p),i)||g(p,s(i)):c==43?g(s(p),s(i))|g(p,s(i)):g(s(p),s(i))&(c==i[0]|c==63));}catch{return false;}}

Leggermente più leggibile:

static bool g(string p /* pattern */, string i /* input string */)
{
    // Instead of checking whether we’ve reached the end of the string, just
    // catch the out-of-range exception thrown by the string indexing operator
    try
    {
        char c;

        // .Remove(0,1) is shorter than .Substring(1)...
        System.Func<string, string> s = t => t.Remove(0, 1);

        // Note that every glob matches itself!† This saves us having to write
        // “(p=="" & i=="")” which would be much longer — very convenient!
        return p == i || (

            // backslash escapes
            (c = p[0]) == 92 ? p[1] == i[0] & g(s(s(p)), s(i)) :

            // '*' — need “||” so that s(i) doesn’t throw if the first part is true
            c == 42 ? g(s(p), i) || g(p, s(i)) :

            // '+'
            c == 43 ? g(s(p), s(i)) | g(p, s(i)) :

            // '?' or any other character
            g(s(p), s(i)) & (c == i[0] | c == 63)
        );
    }

    // If we ever access beyond the end of the string, we know the glob doesn’t match
    catch { return false; }
}

Lo so, lo so ... ad eccezione dei globs contenenti la barra rovesciata. Il che è davvero sfortunato. Altrimenti sarebbe stato davvero intelligente. :(

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.