T-SQL: qual è il modo più efficiente per scorrere una tabella fino a quando non viene soddisfatta una condizione


10

In ha ottenuto un compito di programmazione nell'area di T-SQL.

Compito:

  1. Le persone vogliono entrare in un ascensore ogni persona ha un certo peso.
  2. L'ordine delle persone in attesa in linea è determinato dalla svolta della colonna.
  3. L'ascensore ha una capacità massima di <= 1000 libbre.
  4. Restituisci il nome dell'ultima persona che è in grado di entrare nell'ascensore prima che diventi troppo pesante!
  5. Il tipo restituito dovrebbe essere tabella

inserisci qui la descrizione dell'immagine

Domanda: Qual è il modo più efficace per risolvere questo problema? Se il looping è corretto, c'è qualche margine di miglioramento?

Ho usato un ciclo e tabelle # temp, qui la mia soluzione:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Ecco lo script Crea per la tabella che ho usato Northwind per i test:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;

Risposte:


16

Dovresti cercare di evitare i loop in generale. Di solito sono meno efficienti delle soluzioni basate su set e meno leggibili.

Quanto sotto dovrebbe essere abbastanza efficiente.

Ancor di più se le colonne nome e peso potrebbero essere INCLUDE-d nell'indice per evitare le ricerche chiave.

Può scansionare l'indice univoco in ordine turne calcolare il totale Weightparziale della colonna, quindi utilizzare LEADcon gli stessi criteri di ordinamento per vedere quale sarà il totale parziale nella riga successiva.

Non appena trova la prima riga dove questa supera 1000 o è NULL(indicando che non vi è alcuna riga successiva), può interrompere la scansione.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Progetto esecutivo

inserisci qui la descrizione dell'immagine

In pratica sembra leggere alcune righe davanti a dove è strettamente necessario - sembra che ogni coppia aggregata di spool / stream della finestra faccia leggere due righe aggiuntive.

Idealmente, per i dati di esempio nella domanda dovrebbe solo leggere due righe dalla scansione dell'indice ma in realtà legge 6 ma questo non è un problema di efficienza significativo e non si degrada poiché vengono aggiunte più righe alla tabella (come in questa demo )

Per chi è interessato in questo numero un'immagine con l'uscita righe da ciascun operatore (come mostrato dalla query_trace_column_valuesmanifestazione esteso) è inferiore, le righe vengono emessi in row_idordine (iniziando a 47per la prima riga letta dal indice di scansione e finitura a 113per il TOP)

Fare clic sull'immagine qui sotto per ingrandirla o in alternativa vedere la versione animata per facilitare il flusso .

Mettere in pausa l'animazione nel punto in cui l'aggregato del flusso a destra ha emesso la sua prima riga (per gary - turn = 1). Sembra evidente che fosse in attesa di ricevere la sua prima riga con un WindowCount diverso (per Jo - turn = 2). E il rocchetto della finestra non rilascia la prima riga "Jo" fino a quando non ha letto la riga successiva con una diversa turn(per thomas - turn = 3)

Pertanto, sia lo spool della finestra che l'aggregazione del flusso causano la lettura di una riga aggiuntiva e ce ne sono quattro nel piano, quindi 4 righe aggiuntive.

inserisci qui la descrizione dell'immagine

Segue una spiegazione delle colonne mostrate sopra (in base alle informazioni qui )

  • NodeName: Index Scan, NodeId: 15, ColumnName: colonna della tabella di base id coperta dall'indice
  • NodeName: Index Scan, NodeId: 15, ColumnName: gira la colonna della tabella di base coperta dall'indice
  • NodeName: Ricerca indice cluster, NodeId: 17, ColumnName: colonna della tabella della base di peso recuperata dalla ricerca
  • NodeName: Ricerca indice cluster, NodeId: 17, ColumnName: colonna della tabella della base dei nomi recuperata dalla ricerca
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Restituisce 1 all'inizio del nuovo gruppo o null altrimenti. Poiché non Partition Bynel SUMsolo la prima fila ottiene 1
  • NodeName: Progetto sequenza, NodeId: 12, ColumnName: RowNumber1009 row_number() all'interno del gruppo indicato dal flag Segment1010. Dato che tutte le righe sono nello stesso gruppo, si tratta di numeri interi crescenti da 1 a 6. Sarebbe usato per filtrare le righe del frame destro in casi come rows between 5 preceding and 2 following. (o come LEADpiù tardi)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Restituisce 1 all'inizio del nuovo gruppo o null altrimenti. Poiché non Partition Bynel SUMsolo la prima fila ottiene 1 (Come Segment1010)
  • NodeName: Window Spool, NodeId: 10, ColumnName: WindowCount1012 Attributo che raggruppa le righe appartenenti a un frame della finestra. Questo spool della finestra sta usando il caso "fast track" per UNBOUNDED PRECEDING. Dove emette due righe per riga di origine. Uno con i valori cumulativi e uno con i valori di dettaglio. Sebbene non vi sia alcuna differenza visibile nelle righe esposte da, query_trace_column_valuespresumo che le colonne cumulative siano presenti nella realtà.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) raggruppati per WindowCount1012 in base al piano ma in realtà un conteggio corrente
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) raggruppati per WindowCount1012 in base al piano ma in realtà la somma corrente del peso (es. cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Non vedo come COUNT(*)può essere 0 quindi sarà sempre in esecuzione sum ( cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 No partition bysulla LEADprima riga quindi ottiene 1. Tutti i restanti diventano null
  • NodeName: Progetto sequenza, NodeId: 6, ColumnName: RowNumber1006 row_number() all'interno del gruppo indicato dal flag Segment1013. Poiché tutte le righe sono nello stesso gruppo, si tratta di numeri interi crescenti da 1 a 4
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1 poiché LEADrichiede la riga successiva singola
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1 poiché LEADrichiede la riga successiva singola
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 No partition bysulla LEADprima riga quindi ottiene 1. Tutti i restanti diventano null
  • NodeName: Window Spool, NodeId: 3, ColumnName: WindowCount1015 Attributo che raggruppa le righe appartenenti a un frame della finestra utilizzando i numeri di riga precedenti. La cornice della finestra per LEADha un massimo di 2 righe (quella corrente e quella successiva)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) per ilLEAD(cume_weight)

6

Proprio come una curiosità (poiché la domanda afferma T-SQL) è anche possibile risolvere questo problema in modo efficiente usando SQLCLR.

L'idea è di leggere le righe una alla volta in turnordine fino a quando non weightsuperano le 1000 (o finiamo le righe), quindi per restituire l'ultima namelettura.

Il codice sorgente è:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

L'assieme compilato e la funzione T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Ottenere il risultato:

SELECT dbo.Elevator();

1

Leggera variazione rispetto alla soluzione di Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW è il telaio della finestra predefinito, quindi non l'ho dichiarato.

Viene utilizzato un predicato per il peso cumulativo corrente anziché il peso cumulativo successivo.

Non ho controllato alcun piano, quindi non posso dire se c'è una differenza al riguardo.


Vedo, sono circondato da geek DB :-). Devo controllare tutte le parole chiave che menzionate per capire cosa fanno. Ho solo dato un'occhiata Client statistics --> Total Execution Time, non quello Actual execution planche è probabilmente il più interessante qui. La Client Statisticstua soluzione è un po 'più lenta di quella di Martin. Grazie per le informazioni aggiuntive. Quale metodo può essere utilizzato per misurare le differenze di prestazioni tra approcci diversi?
Legends,

1
Temo che la mia conoscenza di SQL Server sia molto limitata, quindi non ho molte informazioni dettagliate su quali metriche usare. Martin ha un link violino nella sua risposta, forse puoi guardare i piani lì.
Lennart,

1
non ho nemmeno controllato i piani, ma immagino che questo probabilmente calcolerà il totale parziale sull'intera tabella e quindi ordinerà le righe risultanti corrispondenti a WHERE. Dubito che utilizzerà il vincolo di controllo per sapere che il totale parziale è strettamente crescente e può arrestarsi in anticipo. Anche in SQL Server tranne dove viene utilizzato l'aggregato della finestra in modalità batch specificando ROWS piuttosto che RANGE è preferibile anche in assenza di duplicati poiché lo spool della finestra è in memoria e non su disco
Martin Smith,

@MartinSmith, interessante. Nella tua soluzione LEAD ti permette di spingere il predicato next_cume_weight <10000 all'interno di T1 e uscire presto dalla scansione dell'indice? Ho controllato il piano per la mia query e ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWintroduce un Sequence Project (Compute Scalar)operatore. Inutile dire che non ho idea di cosa significhi :-)
Lennart,

1
L'indice consegna le righe nell'ordine necessario per somma, lead e top. Non appena top riceve la prima riga, può interrompere la richiesta di ulteriori righe e l'esecuzione può essere interrotta.
Martin Smith,

0

Puoi fare un join contro se stesso:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Questo tipo di cose non è molto efficiente in quanto provoca una selezione per riga. Ma almeno è espresso come una singola affermazione.

Se non devi farlo interamente in SQL, puoi semplicemente selezionare tutte le righe e scorrere in sequenza, aggiungendole man mano che procedi.

È possibile fare lo stesso in una stored procedure anche senza la tabella temporanea. Tieni semplicemente il nome della somma e dell'ultima riga in una variabile.


Spiacente, non so come farlo funzionare con un self-join, se potessi fare un piccolo esempio riproducibile, ho aggiunto la definizione della tabella alla mia domanda. Il mio sql è cattivo .... Ho bisogno del nome della persona più vicina a <= 1000 libbre.
Legends,

sembra che il tuo aggiornamento funzioni bene, dovrai giocarci un po 'se vuoi che produca esattamente l'output. Ma come ho detto, non è super efficace

Ok? Ottengo null per Person with id 5 ...
Legends

questo è strano, mi aspetto che sum () restituisca 0 per una somma superiore a 0 righe

SOMMA su 0 righe non è 0 (purtroppo). È necessario utilizzare COALESCE()o una ISNULL()funzione o CASEun'espressione per renderlo 0.
ypercubeᵀᴹ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.