Sto cercando di impostare una sottoclasse pd.DataFrameche abbia due argomenti richiesti durante l'inizializzazione ( groupe timestamp_col). Voglio eseguire la convalida su tali argomenti groupe timestamp_col, quindi, ho un metodo setter per ciascuna delle proprietà. Tutto funziona finché non provo a set_index()farlo TypeError: 'NoneType' object is not iterable. Sembra che nessun argomento venga passato alla mia funzione setter in test_set_indexe test_assignment_with_indexed_obj. Se aggiungo if g == None: returnalla mia funzione setter, posso passare i casi di test ma non penso che sia la soluzione corretta.

Come devo implementare la convalida della proprietà per questi argomenti richiesti?

Di seguito è la mia classe:

import pandas as pd
import numpy as np

class HistDollarGains(pd.DataFrame):
    def _constructor(self):
        return HistDollarGains._internal_ctor

    _metadata = ["group", "timestamp_col", "_group", "_timestamp_col"]

    def _internal_ctor(cls, *args, **kwargs):
        kwargs["group"] = None
        kwargs["timestamp_col"] = None
        return cls(*args, **kwargs)

    def __init__(
        super(HistDollarGains, self).__init__(
            data=data, index=index, columns=columns, dtype=dtype, copy=copy
        ) = group
        self.timestamp_col = timestamp_col

    def group(self):
        return self._group

    def group(self, g):
        if g == None:

        if isinstance(g, str):
            group_list = [g]
            group_list = g

        if not set(group_list).issubset(self.columns):
            raise ValueError("Data does not contain " + '[' + ', '.join(group_list) + ']')
        self._group = group_list

    def timestamp_col(self):
        return self._timestamp_col

    def timestamp_col(self, t):
        if t == None:
        if not t in self.columns:
            raise ValueError("Data does not contain " + '[' + t + ']')
        self._timestamp_col = t

Ecco i miei casi di test:

import pytest

import pandas as pd
import numpy as np

from myclass import *

def sample():
    samp = pd.DataFrame(
            {"timestamp": "2020-01-01", "group": "a", "dollar_gains": 100},
            {"timestamp": "2020-01-01", "group": "b", "dollar_gains": 100},
            {"timestamp": "2020-01-01", "group": "c", "dollar_gains": 110},
            {"timestamp": "2020-01-01", "group": "a", "dollar_gains": 110},
            {"timestamp": "2020-01-01", "group": "b", "dollar_gains": 90},
            {"timestamp": "2020-01-01", "group": "d", "dollar_gains": 100},

    return samp

def sample_obj(sample):
    return HistDollarGains(sample, "group", "timestamp")

def test_constructor_without_args(sample):
    with pytest.raises(TypeError):

def test_constructor_with_string_group(sample):
    hist_dg = HistDollarGains(sample, "group", "timestamp")
    assert == ["group"]
    assert hist_dg.timestamp_col == "timestamp"

def test_constructor_with_list_group(sample):
    hist_dg = HistDollarGains(sample, ["group", "timestamp"], "timestamp")

def test_constructor_with_invalid_group(sample):
    with pytest.raises(ValueError):
        HistDollarGains(sample, "invalid_group", np.random.choice(sample.columns))

def test_constructor_with_invalid_timestamp(sample):
    with pytest.raises(ValueError):
        HistDollarGains(sample, np.random.choice(sample.columns), "invalid_timestamp")

def test_assignment_with_indexed_obj(sample_obj):
    b = sample_obj.set_index( + [sample_obj.timestamp_col])

def test_set_index(sample_obj):
    # print(isinstance(a, pd.DataFrame))
    assert sample_obj.set_index( + [sample_obj.timestamp_col]).index.names == ['group', 'timestamp']

Il set_index()metodo chiamerà self.copy()internamente per creare una copia del tuo oggetto DataFrame (vedi qui il codice sorgente ), all'interno del quale utilizza il tuo metodo di costruzione personalizzato _internal_ctor(), per creare il nuovo oggetto ( sorgente ). Si noti che self._constructor()è identico a self._internal_ctor(), che è un metodo interno comune per quasi tutte le classi Panda per la creazione di nuove istanze durante operazioni come copia profonda o slicing. Il tuo problema ha effettivamente origine da questa funzione:

class HistDollarGains(pd.DataFrame):
    def _internal_ctor(cls, *args, **kwargs):
        kwargs["group"]         = None
        kwargs["timestamp_col"] = None
        return cls(*args, **kwargs) # this is equivalent to calling
                                    # HistDollarGains(data, group=None, timestamp_col=None)

Immagino tu abbia copiato questo codice dal problema di github . Le righe kwargs["**"] = Noneindicano esplicitamente al costruttore di impostare Nonesu entrambi groupe timestamp_col. Alla fine il setter / validatore ottiene Nonecome nuovo valore e genera un errore.

Pertanto, è necessario impostare un valore accettabile su groupe timestamp_col.

    def _internal_ctor(cls, *args, **kwargs):
        kwargs["group"]         = []
        kwargs["timestamp_col"] = 'timestamp' # or whatever name that makes your validator happy
        return cls(*args, **kwargs)

Quindi è possibile eliminare le if g == None: returnrighe nel validatore.

