Dividi stringa con delimitatori in C


155

Come faccio a scrivere una funzione per dividere e restituire un array per una stringa con delimitatori nel linguaggio di programmazione C?

char* str = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
str_split(str,',');

25
È possibile utilizzare la strtokfunzione dalla libreria standard per ottenere la stessa cosa.
Daniel Kamil Kozar,


Un commento ... il punto chiave per una strtok()funzione familiare è la comprensione static variablesin C. vale a dire come si comportano tra la successiva chiamata di funzione in cui vengono utilizzate. Vedi il mio codice qui sotto
fnisi,

Risposte:


165

È possibile utilizzare la strtok()funzione per dividere una stringa (e specificare il delimitatore da utilizzare). Si noti che strtok()modificherà la stringa passata al suo interno. Se la stringa originale è richiesta altrove, crearne una copia e passarla a strtok().

MODIFICARE:

Esempio (notare che non gestisce delimitatori consecutivi, ad esempio "JAN ,,, FEB, MAR"):

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <assert.h>

char** str_split(char* a_str, const char a_delim)
{
    char** result    = 0;
    size_t count     = 0;
    char* tmp        = a_str;
    char* last_comma = 0;
    char delim[2];
    delim[0] = a_delim;
    delim[1] = 0;

    /* Count how many elements will be extracted. */
    while (*tmp)
    {
        if (a_delim == *tmp)
        {
            count++;
            last_comma = tmp;
        }
        tmp++;
    }

    /* Add space for trailing token. */
    count += last_comma < (a_str + strlen(a_str) - 1);

    /* Add space for terminating null string so caller
       knows where the list of returned strings ends. */
    count++;

    result = malloc(sizeof(char*) * count);

    if (result)
    {
        size_t idx  = 0;
        char* token = strtok(a_str, delim);

        while (token)
        {
            assert(idx < count);
            *(result + idx++) = strdup(token);
            token = strtok(0, delim);
        }
        assert(idx == count - 1);
        *(result + idx) = 0;
    }

    return result;
}

int main()
{
    char months[] = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
    char** tokens;

    printf("months=[%s]\n\n", months);

    tokens = str_split(months, ',');

    if (tokens)
    {
        int i;
        for (i = 0; *(tokens + i); i++)
        {
            printf("month=[%s]\n", *(tokens + i));
            free(*(tokens + i));
        }
        printf("\n");
        free(tokens);
    }

    return 0;
}

Produzione:

$ ./main.exe
months=[JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC]

month=[JAN]
month=[FEB]
month=[MAR]
month=[APR]
month=[MAY]
month=[JUN]
month=[JUL]
month=[AUG]
month=[SEP]
month=[OCT]
month=[NOV]
month=[DEC]

60
Ciao! l' strtokè contrassegnato come obsoleto da strsep(3)nella pagina man.
osgx,

4
Poiché questa potrebbe essere la domanda / risposta canonica su Stack Overflow per questo, non ci sono alcuni avvertimenti rispetto al multi-threading usando strtok?
Peter Mortensen,

3
@osgx Secondo quella pagina, strsepè un sostituto di strtok, ma strtokè preferito per la portabilità. Pertanto, a meno che non sia necessario il supporto per campi vuoti o la suddivisione di più stringhe contemporaneamente, strtokè una scelta migliore.

4
@Dojo: lo ricorda; questo è uno dei motivi per cui è problematico. Sarebbe meglio usare strtok_s()(Microsoft, C11 allegato K, opzionale) o strtok_r()(POSIX) piuttosto che semplice strtok(). La pianura strtok()è cattiva in una funzione di biblioteca. Nessuna funzione che chiama la funzione di libreria può essere utilizzata strtok()in quel momento e nessuna funzione chiamata dalla funzione di libreria può chiamare strtok().
Jonathan Leffler,

3
Solo una nota che strtok()non è thread-safe (per i motivi citati da @JonathanLeffler) e quindi questa intera funzione non è thread-safe. Se provi a usarlo in un ambiente calpestato, otterrai risultati irregolari e imprevedibili. Sostituendo strtok()per le strtok_r()correzioni questo problema.
Sean W,

70

Penso che strsepsia ancora lo strumento migliore per questo:

while ((token = strsep(&str, ","))) my_fn(token);

Questa è letteralmente una riga che divide una stringa.

Le parentesi extra sono un elemento stilistico per indicare che stiamo testando intenzionalmente il risultato di un incarico, non un operatore di uguaglianza ==.

Perché quel modello funzioni tokened strentrambi hanno il tipo char *. Se hai iniziato con una stringa letterale, dovresti prima fare una copia di essa:

// More general pattern:
const char *my_str_literal = "JAN,FEB,MAR";
char *token, *str, *tofree;

tofree = str = strdup(my_str_literal);  // We own str's memory now.
while ((token = strsep(&str, ","))) my_fn(token);
free(tofree);

Se compaiono due delimitatori insieme str, otterrai un tokenvalore che è la stringa vuota. Il valore di strviene modificato in quanto ogni delimitatore rilevato viene sovrascritto con un byte zero, un altro buon motivo per copiare prima la stringa da analizzare.

In un commento, qualcuno ha suggerito che strtokè meglio che strsepperché strtoksia più portatile. Ubuntu e Mac OS X hanno strsep; è sicuro che anche altri sistemi unixy lo facciano. Windows manca strsep, ma ha ciò strbrkche consente questa strsepsostituzione breve e dolce :

char *strsep(char **stringp, const char *delim) {
  if (*stringp == NULL) { return NULL; }
  char *token_start = *stringp;
  *stringp = strpbrk(token_start, delim);
  if (*stringp) {
    **stringp = '\0';
    (*stringp)++;
  }
  return token_start;
}

Qui è una buona spiegazione del strsepvs strtok. Pro e contro possono essere giudicati soggettivamente; tuttavia, penso che sia un segno rivelatore che è strsepstato progettato come sostituto di strtok.


3
Più precisamente sulla portabilità: non è POSIX 7 , ma derivato da BSD e implementato su glibc .
Ciro Santilli 20 冠状 病 六四 事件 法轮功

Stavo per chiedere ... Il C di Pelle ha strdup (), ma no strsep ().
rdtsc,

1
perché quello tofreeè libero e no str?
Sdlion,

1
Non puoi liberare strperché il suo valore può essere modificato dalle chiamate a strsep(). Il valore di tofreeindica costantemente l'inizio della memoria che si desidera liberare.
Tyler,

26

Tokenizer di stringa questo codice dovrebbe metterti nella giusta direzione.

int main(void) {
  char st[] ="Where there is will, there is a way.";
  char *ch;
  ch = strtok(st, " ");
  while (ch != NULL) {
  printf("%s\n", ch);
  ch = strtok(NULL, " ,");
  }
  getch();
  return 0;
}

13

Il metodo seguente farà tutto il lavoro (allocazione della memoria, contando la lunghezza) per te. Maggiori informazioni e descrizione sono disponibili qui - Implementazione del metodo Java String.split () per dividere la stringa C.

int split (const char *str, char c, char ***arr)
{
    int count = 1;
    int token_len = 1;
    int i = 0;
    char *p;
    char *t;

    p = str;
    while (*p != '\0')
    {
        if (*p == c)
            count++;
        p++;
    }

    *arr = (char**) malloc(sizeof(char*) * count);
    if (*arr == NULL)
        exit(1);

    p = str;
    while (*p != '\0')
    {
        if (*p == c)
        {
            (*arr)[i] = (char*) malloc( sizeof(char) * token_len );
            if ((*arr)[i] == NULL)
                exit(1);

            token_len = 0;
            i++;
        }
        p++;
        token_len++;
    }
    (*arr)[i] = (char*) malloc( sizeof(char) * token_len );
    if ((*arr)[i] == NULL)
        exit(1);

    i = 0;
    p = str;
    t = ((*arr)[i]);
    while (*p != '\0')
    {
        if (*p != c && *p != '\0')
        {
            *t = *p;
            t++;
        }
        else
        {
            *t = '\0';
            i++;
            t = ((*arr)[i]);
        }
        p++;
    }

    return count;
}

Come usarlo:

int main (int argc, char ** argv)
{
    int i;
    char *s = "Hello, this is a test module for the string splitting.";
    int c = 0;
    char **arr = NULL;

    c = split(s, ' ', &arr);

    printf("found %d tokens.\n", c);

    for (i = 0; i < c; i++)
        printf("string #%d: %s\n", i, arr[i]);

    return 0;
}

4
Huh programmatore a tre stelle :)) Sembra interessante.
Michi,

Quando lo faccio, aggiunge troppo all'ultimo token o alloca troppa memoria. Questo è l'output: found 10 tokens. string #0: Hello, string #1: this string #2: is string #3: a string #4: test string #5: module string #6: for string #7: the string #8: string string #9: splitting.¢
KeizerHarm

2
Questo esempio presenta più perdite di memoria. Per chiunque legga questo, non usare questo approccio. Preferisci invece gli approcci di tokenizzazione strtok o strsep.
Jorma Rebane,

7

Ecco i miei due centesimi:

int split (const char *txt, char delim, char ***tokens)
{
    int *tklen, *t, count = 1;
    char **arr, *p = (char *) txt;

    while (*p != '\0') if (*p++ == delim) count += 1;
    t = tklen = calloc (count, sizeof (int));
    for (p = (char *) txt; *p != '\0'; p++) *p == delim ? *t++ : (*t)++;
    *tokens = arr = malloc (count * sizeof (char *));
    t = tklen;
    p = *arr++ = calloc (*(t++) + 1, sizeof (char *));
    while (*txt != '\0')
    {
        if (*txt == delim)
        {
            p = *arr++ = calloc (*(t++) + 1, sizeof (char *));
            txt++;
        }
        else *p++ = *txt++;
    }
    free (tklen);
    return count;
}

Uso:

char **tokens;
int count, i;
const char *str = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";

count = split (str, ',', &tokens);
for (i = 0; i < count; i++) printf ("%s\n", tokens[i]);

/* freeing tokens */
for (i = 0; i < count; i++) free (tokens[i]);
free (tokens);

3
oh boi, tre puntatori! Ho già paura di usarlo lol sono solo io, non sono molto bravo con i puntatori in c.
Hafiz Temuri,

Grazie amico, tutte le risposte strtok sopra non hanno funzionato nel mio caso, anche dopo molti sforzi, e il tuo codice funziona come un incantesimo!
hmmftg,

4

Nell'esempio sopra, ci sarebbe un modo per restituire un array di stringhe con terminazione null (come vuoi tu) nella stringa. Non consentirebbe di passare una stringa letterale, poiché dovrebbe essere modificato dalla funzione:

#include <stdlib.h>
#include <stdio.h>
#include <string.h>

char** str_split( char* str, char delim, int* numSplits )
{
    char** ret;
    int retLen;
    char* c;

    if ( ( str == NULL ) ||
        ( delim == '\0' ) )
    {
        /* Either of those will cause problems */
        ret = NULL;
        retLen = -1;
    }
    else
    {
        retLen = 0;
        c = str;

        /* Pre-calculate number of elements */
        do
        {
            if ( *c == delim )
            {
                retLen++;
            }

            c++;
        } while ( *c != '\0' );

        ret = malloc( ( retLen + 1 ) * sizeof( *ret ) );
        ret[retLen] = NULL;

        c = str;
        retLen = 1;
        ret[0] = str;

        do
        {
            if ( *c == delim )
            {
                ret[retLen++] = &c[1];
                *c = '\0';
            }

            c++;
        } while ( *c != '\0' );
    }

    if ( numSplits != NULL )
    {
        *numSplits = retLen;
    }

    return ret;
}

int main( int argc, char* argv[] )
{
    const char* str = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";

    char* strCpy;
    char** split;
    int num;
    int i;

    strCpy = malloc( strlen( str ) * sizeof( *strCpy ) );
    strcpy( strCpy, str );

    split = str_split( strCpy, ',', &num );

    if ( split == NULL )
    {
        puts( "str_split returned NULL" );
    }
    else
    {
        printf( "%i Results: \n", num );

        for ( i = 0; i < num; i++ )
        {
            puts( split[i] );
        }
    }

    free( split );
    free( strCpy );

    return 0;
}

C'è probabilmente un modo più semplice per farlo, ma hai l'idea.


3

Questa funzione prende una stringa char * e la divide dal deliminator. Possono esserci più deliminatori di fila. Si noti che la funzione modifica la stringa originale. È necessario prima fare una copia della stringa originale se è necessario che l'originale rimanga inalterato. Questa funzione non usa alcuna chiamata di funzione cstring, quindi potrebbe essere un po 'più veloce di altre. Se non ti interessa l'allocazione di memoria, puoi allocare sub_strings nella parte superiore della funzione con size strlen (src_str) / 2 e (come la "versione" c ++ menzionata) salta la metà inferiore della funzione. In questo caso, la funzione viene ridotta a O (N), ma il modo ottimizzato per la memoria mostrato di seguito è O (2N).

La funzione:

char** str_split(char *src_str, const char deliminator, size_t &num_sub_str){
  //replace deliminator's with zeros and count how many
  //sub strings with length >= 1 exist
  num_sub_str = 0;
  char *src_str_tmp = src_str;
  bool found_delim = true;
  while(*src_str_tmp){
    if(*src_str_tmp == deliminator){
      *src_str_tmp = 0;
      found_delim = true;
    }
    else if(found_delim){ //found first character of a new string
      num_sub_str++;
      found_delim = false;
      //sub_str_vec.push_back(src_str_tmp); //for c++
    }
    src_str_tmp++;
  }
  printf("Start - found %d sub strings\n", num_sub_str);
  if(num_sub_str <= 0){
    printf("str_split() - no substrings were found\n");
    return(0);
  }

  //if you want to use a c++ vector and push onto it, the rest of this function
  //can be omitted (obviously modifying input parameters to take a vector, etc)

  char **sub_strings = (char **)malloc( (sizeof(char*) * num_sub_str) + 1);
  const char *src_str_terminator = src_str_tmp;
  src_str_tmp = src_str;
  bool found_null = true;
  size_t idx = 0;
  while(src_str_tmp < src_str_terminator){
    if(!*src_str_tmp) //found a NULL
      found_null = true;
    else if(found_null){
      sub_strings[idx++] = src_str_tmp;
      //printf("sub_string_%d: [%s]\n", idx-1, sub_strings[idx-1]);
      found_null = false;
    }
    src_str_tmp++;
  }
  sub_strings[num_sub_str] = NULL;

  return(sub_strings);
}

Come usarlo:

  char months[] = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
  char *str = strdup(months);
  size_t num_sub_str;
  char **sub_strings = str_split(str, ',', num_sub_str);
  char *endptr;
  if(sub_strings){
    for(int i = 0; sub_strings[i]; i++)
      printf("[%s]\n", sub_strings[i]);
  }
  free(sub_strings);
  free(str);

3
#include <string.h>
#include <stdlib.h>
#include <stdio.h>
#include <errno.h>

/**
 *  splits str on delim and dynamically allocates an array of pointers.
 *
 *  On error -1 is returned, check errno
 *  On success size of array is returned, which may be 0 on an empty string
 *  or 1 if no delim was found.  
 *
 *  You could rewrite this to return the char ** array instead and upon NULL
 *  know it's an allocation problem but I did the triple array here.  Note that
 *  upon the hitting two delim's in a row "foo,,bar" the array would be:
 *  { "foo", NULL, "bar" } 
 * 
 *  You need to define the semantics of a trailing delim Like "foo," is that a
 *  2 count array or an array of one?  I choose the two count with the second entry
 *  set to NULL since it's valueless.
 *  Modifies str so make a copy if this is a problem
 */
int split( char * str, char delim, char ***array, int *length ) {
  char *p;
  char **res;
  int count=0;
  int k=0;

  p = str;
  // Count occurance of delim in string
  while( (p=strchr(p,delim)) != NULL ) {
    *p = 0; // Null terminate the deliminator.
    p++; // Skip past our new null
    count++;
  }

  // allocate dynamic array
  res = calloc( 1, count * sizeof(char *));
  if( !res ) return -1;

  p = str;
  for( k=0; k<count; k++ ){
    if( *p ) res[k] = p;  // Copy start of string
    p = strchr(p, 0 );    // Look for next null
    p++; // Start of next string
  }

  *array = res;
  *length = count;

  return 0;
}

char str[] = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC,";

int main() {
  char **res;
  int k=0;
  int count =0;
  int rc;

  rc = split( str, ',', &res, &count );
  if( rc ) {
    printf("Error: %s errno: %d \n", strerror(errno), errno);
  }

  printf("count: %d\n", count );
  for( k=0; k<count; k++ ) {
    printf("str: %s\n", res[k]);
  }

  free(res );
  return 0;
}

3

Di seguito è la mia strtok()implementazione dalla libreria zString . zstring_strtok()differisce dalle librerie standard strtok()per il modo in cui tratta i delimitatori consecutivi.

Dai un'occhiata al codice qui sotto, sicuro che avrai un'idea di come funziona (ho provato a usare il maggior numero di commenti possibile)

char *zstring_strtok(char *str, const char *delim) {
    static char *static_str=0;      /* var to store last address */
    int index=0, strlength=0;       /* integers for indexes */
    int found = 0;                  /* check if delim is found */

    /* delimiter cannot be NULL
    * if no more char left, return NULL as well
    */
    if (delim==0 || (str == 0 && static_str == 0))
        return 0;

    if (str == 0)
        str = static_str;

    /* get length of string */
    while(str[strlength])
        strlength++;

    /* find the first occurance of delim */
    for (index=0;index<strlength;index++)
        if (str[index]==delim[0]) {
            found=1;
            break;
        }

    /* if delim is not contained in str, return str */
    if (!found) {
        static_str = 0;
        return str;
    }

    /* check for consecutive delimiters
    *if first char is delim, return delim
    */
    if (str[0]==delim[0]) {
        static_str = (str + 1);
        return (char *)delim;
    }

    /* terminate the string
    * this assignmetn requires char[], so str has to
    * be char[] rather than *char
    */
    str[index] = '\0';

    /* save the rest of the string */
    if ((str + index + 1)!=0)
        static_str = (str + index + 1);
    else
        static_str = 0;

        return str;
}

Di seguito è riportato un esempio di utilizzo ...

  Example Usage
      char str[] = "A,B,,,C";
      printf("1 %s\n",zstring_strtok(s,","));
      printf("2 %s\n",zstring_strtok(NULL,","));
      printf("3 %s\n",zstring_strtok(NULL,","));
      printf("4 %s\n",zstring_strtok(NULL,","));
      printf("5 %s\n",zstring_strtok(NULL,","));
      printf("6 %s\n",zstring_strtok(NULL,","));

  Example Output
      1 A
      2 B
      3 ,
      4 ,
      5 C
      6 (null)

La libreria può essere scaricata da Github https://github.com/fnoyanisi/zString


Ben fatto! questo è quello che stavo cercando.
Kostia Kim,

3

Penso che la seguente soluzione sia l'ideale:

  • Non distrugge la stringa di origine
  • Rientrante - cioè, puoi tranquillamente chiamarlo da qualsiasi parte in uno o più thread
  • Portatile
  • Gestisce correttamente più separatori
  • Veloce ed efficiente

Spiegazione del codice:

  1. Definire una struttura tokenper memorizzare l'indirizzo e le lunghezze dei token
  2. Alloca memoria sufficiente per questi nel peggiore dei casi, che è quando strè composto interamente da separatori, quindi ci sono strlen(str) + 1 token, tutti stringhe vuote
  3. Scansione strregistrando l'indirizzo e la lunghezza di ogni token
  4. Utilizzare questo per allocare l'array di output della dimensione corretta, incluso uno spazio extra per un NULLvalore sentinella
  5. Alloca, copia e aggiungi i token usando le informazioni di inizio e lunghezza - usa memcpycome è più veloce distrcpy e conosciamo le lunghezze
  6. Liberare l'indirizzo del token e l'array di lunghezza
  7. Restituisce l'array di token
typedef struct {
    const char *start;
    size_t len;
} token;

char **split(const char *str, char sep)
{
    char **array;
    unsigned int start = 0, stop, toks = 0, t;
    token *tokens = malloc((strlen(str) + 1) * sizeof(token));
    for (stop = 0; str[stop]; stop++) {
        if (str[stop] == sep) {
            tokens[toks].start = str + start;
            tokens[toks].len = stop - start;
            toks++;
            start = stop + 1;
        }
    }
    /* Mop up the last token */
    tokens[toks].start = str + start;
    tokens[toks].len = stop - start;
    toks++;
    array = malloc((toks + 1) * sizeof(char*));
    for (t = 0; t < toks; t++) {
        /* Calloc makes it nul-terminated */
        char *token = calloc(tokens[t].len + 1, 1);
        memcpy(token, tokens[t].start, tokens[t].len);
        array[t] = token;
    }
    /* Add a sentinel */
    array[t] = NULL; 
    free(tokens);
    return array;
}

Nota: malloc controllo omesso per brevità.

In generale, non restituirei una serie di char *puntatori da una funzione divisa come questa in quanto attribuisce molta responsabilità al chiamante per liberarli correttamente. Un'interfaccia Io preferisco è quello di consentire al chiamante di passare una funzione di callback e chiamare questo per ogni modo, come ho descritto qui: dividere una stringa in C .


La scansione di separatori due volte è probabilmente più consigliabile che allocare un array potenzialmente grande di token.
Chqrlie,

2

Prova a usare questo.

char** strsplit(char* str, const char* delim){
    char** res = NULL;
    char*  part;
    int i = 0;

    char* aux = strdup(str);

    part = strdup(strtok(aux, delim));

    while(part){
        res = (char**)realloc(res, (i + 1) * sizeof(char*));
        *(res + i) = strdup(part);

        part = strdup(strtok(NULL, delim));
        i++;
    }

    res = (char**)realloc(res, i * sizeof(char*));
    *(res + i) = NULL;

    return res;
}

2

Questo metodo ottimizzato crea (o aggiorna una matrice esistente di puntatori nel risultato * e restituisce il numero di elementi nel * conteggio.

Utilizzare "max" per indicare il numero massimo di stringhe che ci si aspetta (quando si specifica un array esistente o qualsiasi altro reaseon), altrimenti impostarlo su 0

Per confrontare un elenco di delimitatori, definire delim come carattere * e sostituire la riga:

if (str[i]==delim) {

con le due seguenti righe:

 char *c=delim; while(*c && *c!=str[i]) c++;
 if (*c) {

Godere

#include <stdlib.h>
#include <string.h>

char **split(char *str, size_t len, char delim, char ***result, unsigned long *count, unsigned long max) {
  size_t i;
  char **_result;

  // there is at least one string returned
  *count=1;

  _result= *result;

  // when the result array is specified, fill it during the first pass
  if (_result) {
    _result[0]=str;
  }

  // scan the string for delimiter, up to specified length
  for (i=0; i<len; ++i) {

    // to compare against a list of delimiters,
    // define delim as a string and replace 
    // the next line:
    //     if (str[i]==delim) {
    //
    // with the two following lines:
    //     char *c=delim; while(*c && *c!=str[i]) c++;
    //     if (*c) {
    //       
    if (str[i]==delim) {

      // replace delimiter with zero
      str[i]=0;

      // when result array is specified, fill it during the first pass
      if (_result) {
        _result[*count]=str+i+1;
      }

      // increment count for each separator found
      ++(*count);

      // if max is specified, dont go further
      if (max && *count==max)  {
        break;
      }

    }
  }

  // when result array is specified, we are done here
  if (_result) {
    return _result;
  }

  // else allocate memory for result
  // and fill the result array                                                                                    

  *result=malloc((*count)*sizeof(char*));
  if (!*result) {
    return NULL;
  }
  _result=*result;

  // add first string to result
  _result[0]=str;

  // if theres more strings
  for (i=1; i<*count; ++i) {

    // find next string
    while(*str) ++str;
    ++str;

    // add next string to result
    _result[i]=str;

  }

  return _result;
}  

Esempio di utilizzo:

#include <stdio.h>

int main(int argc, char **argv) {
  char *str="JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
  char **result=malloc(6*sizeof(char*));
  char **result2=0;
  unsigned long count;
  unsigned long count2;
  unsigned long i;

  split(strdup(str),strlen(str),',',&result,&count,6);
  split(strdup(str),strlen(str),',',&result2,&count2,0);

  if (result)
  for (i=0; i<count; ++i) {
    printf("%s\n",result[i]);
  }

  printf("\n");

  if (result2)
  for (i=0; i<count2; ++i) {
    printf("%s\n", result2[i]);
  }

  return 0;

}

2

La mia versione:

int split(char* str, const char delimeter, char*** args) {
    int cnt = 1;
    char* t = str;

    while (*t == delimeter) t++;

    char* t2 = t;
    while (*(t2++))
        if (*t2 == delimeter && *(t2 + 1) != delimeter && *(t2 + 1) != 0) cnt++;

    (*args) = malloc(sizeof(char*) * cnt);

    for(int i = 0; i < cnt; i++) {
        char* ts = t;
        while (*t != delimeter && *t != 0) t++;

        int len = (t - ts + 1);
        (*args)[i] = malloc(sizeof(char) * len);
        memcpy((*args)[i], ts, sizeof(char) * (len - 1));
        (*args)[i][len - 1] = 0;

        while (*t == delimeter) t++;
    }

    return cnt;
}

2

Questa è una funzione di divisione delle stringhe in grado di gestire delimitatori a più caratteri. Nota che se il delimitatore è più lungo della stringa che viene divisa, allora buffere stringLengthssarà impostato su (void *) 0e numStringssarà impostato su 0.

Questo algoritmo è stato testato e funziona. (Dichiarazione di non responsabilità: non è stata testata per stringhe non ASCII e presuppone che il chiamante abbia fornito parametri validi)

void splitString(const char *original, const char *delimiter, char ** * buffer, int * numStrings, int * * stringLengths){
    const int lo = strlen(original);
    const int ld = strlen(delimiter);
    if(ld > lo){
        *buffer = (void *)0;
        *numStrings = 0;
        *stringLengths = (void *)0;
        return;
    }

    *numStrings = 1;

    for(int i = 0;i < (lo - ld);i++){
        if(strncmp(&original[i], delimiter, ld) == 0) {
            i += (ld - 1);
            (*numStrings)++;
        }
    }

    *stringLengths = (int *) malloc(sizeof(int) * *numStrings);

    int currentStringLength = 0;
    int currentStringNumber = 0;
    int delimiterTokenDecrementCounter = 0;
    for(int i = 0;i < lo;i++){
        if(delimiterTokenDecrementCounter > 0){
            delimiterTokenDecrementCounter--;
        } else if(i < (lo - ld)){
            if(strncmp(&original[i], delimiter, ld) == 0){
                (*stringLengths)[currentStringNumber] = currentStringLength;
                currentStringNumber++;
                currentStringLength = 0;
                delimiterTokenDecrementCounter = ld - 1;
            } else {
                currentStringLength++;
            }
        } else {
            currentStringLength++;
        }

        if(i == (lo - 1)){
            (*stringLengths)[currentStringNumber] = currentStringLength;
        }
    }

    *buffer = (char **) malloc(sizeof(char *) * (*numStrings));
    for(int i = 0;i < *numStrings;i++){
        (*buffer)[i] = (char *) malloc(sizeof(char) * ((*stringLengths)[i] + 1));
    }

    currentStringNumber = 0;
    currentStringLength = 0;
    delimiterTokenDecrementCounter = 0;
    for(int i = 0;i < lo;i++){
        if(delimiterTokenDecrementCounter > 0){
            delimiterTokenDecrementCounter--;
        } else if(currentStringLength >= (*stringLengths)[currentStringNumber]){
            (*buffer)[currentStringNumber][currentStringLength] = 0;
            delimiterTokenDecrementCounter = ld - 1;
            currentStringLength = 0;
            currentStringNumber++;
        } else {
            (*buffer)[currentStringNumber][currentStringLength] = (char)original[i];
            currentStringLength++;
        }
    }
    buffer[currentStringNumber][currentStringLength] = 0;
}

Codice di esempio:

int main(){
    const char *string = "STRING-1 DELIM string-2 DELIM sTrInG-3";
    char **buffer;
    int numStrings;
    int * stringLengths;

    splitString(string, " DELIM ", &buffer, &numStrings, &stringLengths);

    for(int i = 0;i < numStrings;i++){
        printf("String: %s\n", buffer[i]);
    }
}

biblioteche:

#include <stdlib.h>
#include <string.h>
#include <stdio.h>

Come posso chiamare questo da main? Non so cosa passare al buffer.
Aymon Fournier,

La logica di allocazione è errata. realloc () restituisce un nuovo puntatore e si elimina il valore restituito. Nessun modo corretto per restituire un nuovo puntatore di memoria: il prototipo della funzione deve essere modificato per accettare la dimensione dell'assegnazione buffere lasciare l'allocazione al chiamante, elaborare gli elementi di dimensione massima.
Alex,

@Alex Risolto, completamente riscritto e testato. Nota: non sono sicuro che funzionerà per non ASCII o meno.
Élektra,

Per cominciare, questo non è il codice C. E perché dovresti passare i puntatori per riferimento reale in C ++?
Kamiccolo,

@Kamiccolo Mi dispiace, com'è esattamente questo codice C? Inoltre, perché passare puntatori per riferimento è un problema qui?
Élektra,

1

Il mio approccio è scansionare la stringa e lasciare che i puntatori puntino a ogni carattere dopo i delimitatori (e il primo carattere), allo stesso tempo assegnare le apparenze del deliminatore in stringa a '\ 0'.
Prima fai una copia della stringa originale (poiché è costante), quindi ottieni il numero di divisioni scansionandolo e passalo al parametro puntatore len . Successivamente, punta il primo puntatore del risultato sul puntatore della stringa di copia, quindi scansiona la stringa di copia: una volta incontrato un delimitatore, assegnalo a '\ 0' in modo che la stringa di risultato precedente sia terminata e punta il puntatore di stringa di risultato successivo al successivo puntatore carattere.

char** split(char* a_str, const char a_delim, int* len){
    char* s = (char*)malloc(sizeof(char) * strlen(a_str));
    strcpy(s, a_str);
    char* tmp = a_str;
    int count = 0;
    while (*tmp != '\0'){
        if (*tmp == a_delim) count += 1;
        tmp += 1;
    }
    *len = count;
    char** results = (char**)malloc(count * sizeof(char*));
    results[0] = s;
    int i = 1;
    while (*s!='\0'){
        if (*s == a_delim){
            *s = '\0';
            s += 1;
            results[i++] = s;
        }
        else s += 1;
    }
    return results;
}

Questo metodo è sbagliato Mi è stato appena eliminato questo post, ma poi mi sono reso conto che potrebbe essere interessante per alcuni di voi.
metalcrash,

1

Il mio codice (testato):

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int dtmsplit(char *str, const char *delim, char ***array, int *length ) {
  int i=0;
  char *token;
  char **res = (char **) malloc(0 * sizeof(char *));

  /* get the first token */
   token = strtok(str, delim);
   while( token != NULL ) 
   {
        res = (char **) realloc(res, (i + 1) * sizeof(char *));
        res[i] = token;
        i++;
      token = strtok(NULL, delim);
   }
   *array = res;
   *length = i;
  return 1;
}

int main()
{
    int i;
    int c = 0;
    char **arr = NULL;

    int count =0;

    char str[80] = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
    c = dtmsplit(str, ",", &arr, &count);
    printf("Found %d tokens.\n", count);

    for (i = 0; i < count; i++)
        printf("string #%d: %s\n", i, arr[i]);

   return(0);
}

Risultato:

Found 12 tokens.
string #0: JAN
string #1: FEB
string #2: MAR
string #3: APR
string #4: MAY
string #5: JUN
string #6: JUL
string #7: AUG
string #8: SEP
string #9: OCT
string #10: NOV
string #11: DEC

1
Ricorda che la funzione strtok cambia la stringa a cui è stato applicato 'str'!
SchLx,

1

Esplodi e implora: la stringa iniziale rimane intatta, allocazione dinamica della memoria

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

typedef struct
{
    uintptr_t   ptr;
    int         size;
} token_t;

int explode(char *str, int slen, const char *delimiter, token_t **tokens)
{
    int i = 0, c1 = 0, c2 = 0;

    for(i = 0; i <= slen; i++)
    {
            if(str[i] == *delimiter)
            {
                c1++;
            }
    }

    if(c1 == 0)
    {
            return -1;
    }

    *tokens = (token_t*)calloc((c1 + 1), sizeof(token_t));
    ((*tokens)[c2]).ptr = (uintptr_t)str;

    i = 0; 
    while(i <= slen)
    {
        if((str[i] == *delimiter) || (i == slen))
        {
                ((*tokens)[c2]).size = (int)((uintptr_t)&(str[i]) - (uintptr_t)(((*tokens)[c2]).ptr));
                if(i < slen)
                {
                    c2++;
                    ((*tokens)[c2]).ptr = (uintptr_t)&(str[i + 1]);
                }
        }
        i++;
    }
    return (c1 + 1);
}

char* implode(token_t *tokens, int size, const char *delimiter)
{
    int     i, len = 0;
    char    *str;

    for(i = 0; i < len; i++)
    {
        len += tokens[i].size + 1;
    }

    str = (char*)calloc(len, sizeof(char));

    len = 0;
    for(i = 0; i < size; i++)
    {
        memcpy((void*)&str[len], (void*)tokens[i].ptr, tokens[i].size);
        len += tokens[i].size;
        str[(len++)] = *delimiter;
    }

    str[len - 1] = '\0';

    return str;
}

Uso:

int main(int argc, char **argv)
{
    int         i, c;
    char        *exp = "JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC";
    token_t     *tokens;
    char        *imp;

    printf("%s\n", exp);

    if((c = explode(exp, strlen(exp), ",", &tokens)) > 0)
    {
        imp = implode(tokens, c, ",");
        printf("%s\n", imp);

        for(i = 0; i < c; i++)
        {
            printf("%.*s, %d\n", tokens[i].size, (char*)tokens[i].ptr, tokens[i].size);
        }
    }

    free((void*)tokens);
    free((void*)imp);
    return 0;
}

0

Se sei disposto a utilizzare una libreria esterna, non posso raccomandare bstrlib abbastanza. Ci vuole un po 'di configurazione extra, ma è più facile da usare a lungo termine.

Ad esempio, dividere la stringa di seguito, si crea prima una bstringcon la bfromcstr()chiamata. (A bstringè un wrapper attorno a un buffer di caratteri). Quindi, dividi la stringa tra virgole, salvando il risultato in a struct bstrList, che ha campi qtye un array entry, che è un array di bstrings.

bstrlib ha molte altre funzioni su cui operare bstring s

Facile come una torta ...

#include "bstrlib.h"
#include <stdio.h>
int main() {
  int i;
  char *tmp = "Hello,World,sak";
  bstring bstr = bfromcstr(tmp);
  struct bstrList *blist = bsplit(bstr, ',');
  printf("num %d\n", blist->qty);
  for(i=0;i<blist->qty;i++) {
    printf("%d: %s\n", i, bstr2cstr(blist->entry[i], '_'));
  }

}

0

Ancora un'altra risposta (questa è stata spostata qui da qui ):

Prova a usare la funzione strtok:

vedere i dettagli su questo argomento qui o qui

Il problema qui è che devi elaborare wordsimmediatamente. Se si desidera archiviarlo in un array, è necessario allocare la correct sizestrega perché non è noto.

Quindi per esempio:

char **Split(char *in_text, char *in_sep)
{
    char **ret = NULL;
    int count = 0;
    char *tmp = strdup(in_text);
    char *pos = tmp;

    // This is the pass ONE: we count 
    while ((pos = strtok(pos, in_sep)) != NULL)
    {
        count++;
        pos = NULL;
    }

    // NOTE: the function strtok changes the content of the string! So we free and duplicate it again! 
    free(tmp);
    pos = tmp = strdup(in_text);

    // We create a NULL terminated array hence the +1
    ret = calloc(count+1, sizeof(char*));
    // TODO: You have to test the `ret` for NULL here

    // This is the pass TWO: we store
    count = 0;
    while ((pos = strtok(pos, in_sep)) != NULL)
    {
        ret[count] = strdup(pos);
        count++;
        pos = NULL;
    }
    free(tmp);

    return count;
}

// Use this to free
void Free_Array(char** in_array)
{
    char *pos = in_array;

    while (pos[0] != NULL)
    {
        free(pos[0]);
        pos++;

    }

    free(in_array);

}

Nota : utilizziamo lo stesso loop e la stessa funzione per calcolare i conteggi (passa uno) e per fare le copie (passa due), al fine di evitare problemi di allocazione.

Nota 2 : è possibile utilizzare qualche altra implementazione dello strtok i motivi menzionati in post separati.

Puoi usarlo come:

int main(void)
{
  char **array = Split("Hello World!", " ");
  // Now you have the array
  // ...

  // Then free the memory
  Free_Array(array);
  array = NULL;
  return 0;
}

(Non l'ho provato, quindi per favore fatemi sapere se non funziona!)


0

Due problemi che circondano questa domanda sono la gestione della memoria e la sicurezza dei thread. Come puoi vedere dai numerosi post, questo non è un compito facile da realizzare senza problemi in C. Ho desiderato una soluzione che sia:

  • Discussione sicura. (strtok non è thread-safe)
  • Non utilizza malloc o alcuno dei suoi derivati ​​(per evitare problemi di gestione della memoria)
  • Controlla i limiti dell'array sui singoli campi (per evitare errori di segmento su dati sconosciuti)
  • Funziona con separatori di campo multibyte (utf-8)
  • ignora i campi aggiuntivi nell'input
  • fornisce una routine di errore software per lunghezze di campo non valide

La soluzione che ho trovato soddisfa tutti questi criteri. Probabilmente è un po 'più di lavoro da configurare rispetto ad altre soluzioni pubblicate qui, ma penso che in pratica valga la pena fare un lavoro extra per evitare le insidie ​​comuni di altre soluzioni.

#include <stdio.h>
#include <string.h>

struct splitFieldType {
    char *field;
    int   maxLength;
};

typedef struct splitFieldType splitField;

int strsplit(splitField *fields, int expected, const char *input, const char *fieldSeparator, void (*softError)(int fieldNumber,int expected,int actual))  {
    int i;
    int fieldSeparatorLen=strlen(fieldSeparator);
    const char *tNext, *tLast=input;

    for (i=0; i<expected && (tNext=strstr(tLast, fieldSeparator))!=NULL; ++i) {
        int len=tNext-tLast;
        if (len>=fields[i].maxLength) {
            softError(i,fields[i].maxLength-1,len);
            len=fields[i].maxLength-1;
        }
        fields[i].field[len]=0;
        strncpy(fields[i].field,tLast,len);
        tLast=tNext+fieldSeparatorLen;
    }
    if (i<expected) {
        if (strlen(tLast)>fields[i].maxLength) {
            softError(i,fields[i].maxLength,strlen(tLast));
        } else {
            strcpy(fields[i].field,tLast);
        }
        return i+1;
    } else {
        return i;
    }
}


void monthSplitSoftError(int fieldNumber, int expected, int actual) {
    fprintf(stderr,"monthSplit: input field #%d is %d bytes, expected %d bytes\n",fieldNumber+1,actual,expected);
}


int main() {
  const char *fieldSeparator=",";
  const char *input="JAN,FEB,MAR,APRI,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC,FOO,BAR";

  struct monthFieldsType {
    char field1[4];
    char field2[4];
    char field3[4];
    char field4[4];
    char field5[4];
    char field6[4];
    char field7[4];
    char field8[4];
    char field9[4];
    char field10[4];
    char field11[4];
    char field12[4];
  } monthFields;

  splitField inputFields[12] = {
    {monthFields.field1,  sizeof(monthFields.field1)},
    {monthFields.field2,  sizeof(monthFields.field2)},
    {monthFields.field3,  sizeof(monthFields.field3)},
    {monthFields.field4,  sizeof(monthFields.field4)},
    {monthFields.field5,  sizeof(monthFields.field5)},
    {monthFields.field6,  sizeof(monthFields.field6)},
    {monthFields.field7,  sizeof(monthFields.field7)},
    {monthFields.field8,  sizeof(monthFields.field8)},
    {monthFields.field9,  sizeof(monthFields.field9)},
    {monthFields.field10, sizeof(monthFields.field10)},
    {monthFields.field11, sizeof(monthFields.field11)},
    {monthFields.field12, sizeof(monthFields.field12)}
  };

  int expected=sizeof(inputFields)/sizeof(splitField);

  printf("input data: %s\n", input);
  printf("expecting %d fields\n",expected);

  int ct=strsplit(inputFields, expected, input, fieldSeparator, monthSplitSoftError);

  if (ct!=expected) {
    printf("string split %d fields, expected %d\n", ct,expected);
  }

  for (int i=0;i<expected;++i) {
    printf("field %d: %s\n",i+1,inputFields[i].field);
  }

  printf("\n");
  printf("Direct structure access, field 10: %s", monthFields.field10);
}

Di seguito è riportato un esempio di compilazione e output. Si noti che nel mio esempio, ho esplicitamente spiegato "APRILE" in modo da poter vedere come funziona l'errore soft.

$ gcc strsplitExample.c && ./a.out
input data: JAN,FEB,MAR,APRIL,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC,FOO,BAR
expecting 12 fields
monthSplit: input field #4 is 5 bytes, expected 3 bytes
field 1: JAN
field 2: FEB
field 3: MAR
field 4: APR
field 5: MAY
field 6: JUN
field 7: JUL
field 8: AUG
field 9: SEP
field 10: OCT
field 11: NOV
field 12: DEC

Direct structure access, field 10: OCT

Godere!


0

Ecco un'altra implementazione che opererà in modo sicuro per tokenizzare una stringa letterale corrispondente al prototipo richiesto nella domanda che restituisce un carattere da puntatore a puntatore assegnato a char (ad es char **.). La stringa del delimitatore può contenere più caratteri e la stringa di input può contenere qualsiasi numero di token. Tutte le allocazioni e le riallocazioni sono gestite da malloco reallocsenza POSIX strdup.

Il numero iniziale di puntatori allocati è controllato dalla NPTRScostante e l'unica limitazione è che è maggiore di zero. Il char **reso contiene una sentinella NULL dopo l'ultimo token simile *argv[]e nella forma utilizzabile da execv, execvpeexecve .

Come nel caso di strtok()più delimitatori sequenziali vengono trattati come un delimitatore singolo, pertanto "JAN,FEB,MAR,APR,MAY,,,JUN,JUL,AUG,SEP,OCT,NOV,DEC"verranno analizzati come se solo un singolo ','separasse "MAY,JUN".

La funzione seguente è commentata in linea e è main()stato aggiunto un corto che divide i mesi. Il numero iniziale di puntatori allocati è stato impostato su 2per forzare tre riallocazioni durante la tokenizzazione della stringa di input:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define NPTRS 2     /* initial number of pointers to allocate (must be > 0) */

/* split src into tokens with sentinel NULL after last token.
 * return allocated pointer-to-pointer with sentinel NULL on success,
 * or NULL on failure to allocate initial block of pointers. The number
 * of allocated pointers are doubled each time reallocation required.
 */
char **strsplit (const char *src, const char *delim)
{
    int i = 0, in = 0, nptrs = NPTRS;       /* index, in/out flag, ptr count */
    char **dest = NULL;                     /* ptr-to-ptr to allocate/fill */
    const char *p = src, *ep = p;           /* pointer and end-pointer */

    /* allocate/validate nptrs pointers for dest */
    if (!(dest = malloc (nptrs * sizeof *dest))) {
        perror ("malloc-dest");
        return NULL;
    }
    *dest = NULL;   /* set first pointer as sentinel NULL */

    for (;;) {  /* loop continually until end of src reached */
        if (!*ep || strchr (delim, *ep)) {  /* if at nul-char or delimiter char */
            size_t len = ep - p;            /* get length of token */
            if (in && len) {                /* in-word and chars in token */
                if (i == nptrs - 1) {       /* used pointer == allocated - 1? */
                    /* realloc dest to temporary pointer/validate */
                    void *tmp = realloc (dest, 2 * nptrs * sizeof *dest);
                    if (!tmp) {
                        perror ("realloc-dest");
                        break;  /* don't exit, original dest still valid */
                    }
                    dest = tmp;             /* assign reallocated block to dest */
                    nptrs *= 2;             /* increment allocated pointer count */
                }
                /* allocate/validate storage for token */
                if (!(dest[i] = malloc (len + 1))) {
                    perror ("malloc-dest[i]");
                    break;
                }
                memcpy (dest[i], p, len);   /* copy len chars to storage */
                dest[i++][len] = 0;         /* nul-terminate, advance index */
                dest[i] = NULL;             /* set next pointer NULL */
            }
            if (!*ep)                       /* if at end, break */
                break;
            in = 0;                         /* set in-word flag 0 (false) */
        }
        else {  /* normal word char */
            if (!in)                        /* if not in-word */
                p = ep;                     /* update start to end-pointer */
            in = 1;                         /* set in-word flag 1 (true) */
        }
        ep++;   /* advance to next character */
    }

    return dest;
}

int main (void) {

    char *str = "JAN,FEB,MAR,APR,MAY,,,JUN,JUL,AUG,SEP,OCT,NOV,DEC",
        **tokens;                           /* pointer to pointer to char */

    if ((tokens = strsplit (str, ","))) {   /* split string into tokens */
        for (char **p = tokens; *p; p++) {  /* loop over filled pointers */
            puts (*p);
            free (*p);      /* don't forget to free allocated strings */
        }
        free (tokens);      /* and pointers */
    }
}

Esempio di utilizzo / output

$ ./bin/splitinput
JAN
FEB
MAR
APR
MAY
JUN
JUL
AUG
SEP
OCT
NOV
DEC

Fammi sapere se hai altre domande.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.