Trova la posizione di un carattere nella stringa


88

Vorrei trovare la posizione di un carattere in una stringa.

Dire: string = "the2quickbrownfoxeswere2tired"

Vorrei che la funzione restituisse 4e 24- la posizione del carattere della 2s in string.


Perché usare una regex? R non ha un .indexOf()o qualcosa del genere?
fge

2
Ne dubito. Gli sviluppatori erano Nixers e presumevano che tutti conoscessero regex. La gestione delle stringhe di R è una specie di kludgy.
IRTFM

Risposte:


116

Puoi usare gregexpr

 gregexpr(pattern ='2',"the2quickbrownfoxeswere2tired")


[[1]]
[1]  4 24
attr(,"match.length")
[1] 1 1
attr(,"useBytes")
[1] TRUE

o forse str_locate_alldal pacchetto stringrche è un wrapper per (a partire dalla versione 1.0)gregexpr stringi::stri_locate_allstringr

library(stringr)
str_locate_all(pattern ='2', "the2quickbrownfoxeswere2tired")

[[1]]
     start end
[1,]     4   4
[2,]    24  24

nota che potresti semplicemente usare stringi

library(stringi)
stri_locate_all(pattern = '2', "the2quickbrownfoxeswere2tired", fixed = TRUE)

Un'altra opzione in base Rsarebbe qualcosa di simile

lapply(strsplit(x, ''), function(x) which(x == '2'))

dovrebbe funzionare (dato un vettore di carattere x)


come possiamo estrarre gli interi dalle liste / oggetti restituiti dalle tue prime 3 soluzioni?
3pitt

Utilizzare regexprinvece di gregexprper ottenere facilmente i numeri interi. Oppure utilizzare unlistsull'output come indicato in un'altra risposta di seguito.
Arani

43

Ecco un'altra semplice alternativa.

> which(strsplit(string, "")[[1]]=="2")
[1]  4 24

Puoi spiegare cosa [[1]]fa?
francoiskroll

@francoiskroll, [[1]] rappresenta il primo elemento della lista.
Prafulla

20

Puoi rendere l'output solo 4 e 24 usando unlist:

unlist(gregexpr(pattern ='2',"the2quickbrownfoxeswere2tired"))
[1]  4 24

3

trova la posizione dell'ennesima occorrenza di str2 in str1 (stesso ordine dei parametri di Oracle SQL INSTR), restituisce 0 se non trovato

instr <- function(str1,str2,startpos=1,n=1){
    aa=unlist(strsplit(substring(str1,startpos),str2))
    if(length(aa) < n+1 ) return(0);
    return(sum(nchar(aa[1:n])) + startpos+(n-1)*nchar(str2) )
}


instr('xxabcdefabdddfabx','ab')
[1] 3
instr('xxabcdefabdddfabx','ab',1,3)
[1] 15
instr('xxabcdefabdddfabx','xx',2,1)
[1] 0

2

Per trovare solo le prime posizioni, utilizza lapply()con min():

my_string <- c("test1", "test1test1", "test1test1test1")

unlist(lapply(gregexpr(pattern = '1', my_string), min))
#> [1] 5 5 5

# or the readable tidyverse form
my_string %>%
  gregexpr(pattern = '1') %>%
  lapply(min) %>%
  unlist()
#> [1] 5 5 5

Per trovare solo le ultime posizioni, utilizza lapply()con max():

unlist(lapply(gregexpr(pattern = '1', my_string), max))
#> [1]  5 10 15

# or the readable tidyverse form
my_string %>%
  gregexpr(pattern = '1') %>%
  lapply(max) %>%
  unlist()
#> [1]  5 10 15

1

Potresti anche usare grep:

grep('2', strsplit(string, '')[[1]])
#4 24
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.