Ok, quindi suppongo che questo tipo di query / sondaggio informale su quanto sia grande un set di dati che stai usando nei tuoi mondi ESRI ...
Sto costruendo e gestendo un set di dati in tutto lo stato, in cui devo elaborare fino al livello della singola casa, non livello pacchi ma più indirizzi postali per pacco per i nostri sistemi. In molti posti sto usando indirizzi teorici calcolati dalla rete stradale o dai dati USPS AMS / AIS. Quindi la mia lista di indirizzi è di circa 13,5 milioni di indirizzi e cresce mensilmente o trimestralmente.
Qualcuno è là fuori in questo momento che mantiene un sistema live di indirizzi / informazioni di ricerca corretta che è così grande in un set di dati continuo?
Mi piacerebbe collaborare o parlare di più su come gli altri gestiscono un set di dati così ampio. Sto riscontrando problemi in cui il software ESRI sembra esplodere quando provo a eseguire attività come incroci o join spaziali. ESRI afferma che non vedono questo tipo di problemi, ma ho avuto questi problemi sin dalla 9.3.1, quindi non posso essere la prima / unica persona a farlo poiché posso ricrearlo su più macchine.
La mia piattaforma in questo momento è ESRI ArcGIS 10 sul desktop, parlando con ArcSDE 9.3.1-sp1 su un backend SQL2008 usando l'oggetto spaziale GEOMETRY. Quindi non sto facendo nulla di veramente esotico; ma mi sembra ancora che in alcune aree forse sto spingendo la busta.
[Ulteriore]
Quello che mi interessa sapere è cosa stanno facendo le altre persone per ottimizzare i processi lì per gestire questi set di dati. In futuro aggiungerò le parole d'ordine di un milione di record al mese, e mentre il geocodifica ecc. Non è un problema quando si avvia l'esecuzione di altri processi e si collegano i dati per ulteriori analisi, si inizia a gestire join complessi. Bene, produci dati da Intersezioni / Sovrapposizioni / Identità usando Only_FID e ottieni anche un tavolo medio sottile da unire; ma quando inizi a cercare di dividere e conquistare la creazione di quella tabella, inizi a colpire i problemi in cui è necessario dividere i dati di origine in aree di lavoro, ma poi hai ID ripetuti che non puoi ricollegare; così ti rimangono piccoli blocchi di dati che non puoi facilmente ricostruire.
Pensando alle opzioni che suddividono i dati in scala Contea per Contea, quindi usando le viste spaziali per unirli di nuovo insieme ecc ... Solo curioso se altri utenti stanno osservando gli stessi tipi di problemi su così grande scala ma su piccola impronte.