Isi data acak dari tabel lain

PENYIAPAN

Mari kita mulai dengan menganggap tabel Anda sebagai data berikut. Perhatikan bahwa saya berasumsi bahwa dataset1 memiliki kunci utama (bisa berupa kunci komposit, tetapi, demi kesederhanaan, mari kita buat bilangan bulat):

CREATE TABLE dataset1
(
     id INTEGER PRIMARY KEY,
     column4 TEXT
) ;

CREATE TABLE dataset2
(
    column1 TEXT
) ;

Kami mengisi kedua tabel dengan data sampel

INSERT INTO dataset1
    (id, column4)
SELECT
    i, 'column 4 for id ' || i
FROM
    generate_series(101, 120) AS s(i);

INSERT INTO dataset2
    (column1)
SELECT
    'SOMETHING ' || i
FROM 
    generate_series (1001, 1020) AS s(i) ;

Pemeriksaan kesehatan:

SELECT count(DISTINCT column4) FROM dataset1 ;

| count |
| ----: |
|    20 |

Kasus 1:jumlah baris dalam kumpulan data1 <=baris dalam kumpulan data2

Kami akan melakukan pengocokan lengkap. Nilai dari dataset2 akan digunakan sekali, dan tidak lebih dari sekali.

PENJELASAN

Untuk membuat pembaruan yang mengacak semua nilai dari column4 secara acak, kami membutuhkan beberapa langkah perantara.

Pertama, untuk dataset1 , kita perlu membuat daftar (relasi) dari tupel (id, rn) , itu saja:

(id_1,   1),
(id_2,   2),
(id_3,   3),
...
(id_20, 20)

Dimana id_1 , ..., id_20 apakah id ada di dataset1 .Mereka bisa dari jenis apa saja, tidak perlu berurutan, dan bisa gabungan.

Untuk dataset2 , kita perlu membuat daftar lagi dari (column_1,rn) , yang terlihat seperti:

(column1_1,  17),
(column1_2,   3),
(column1_3,  11),
...
(column1_20, 15)

Dalam hal ini, kolom kedua berisi semua nilai 1 .. 20, tetapi diacak.

Setelah kita memiliki dua relasi, kita JOIN mereka ON ... rn . Ini, dalam praktiknya, menghasilkan daftar tupel lain dengan (id, column1) , dimana pairing dilakukan secara random. Kami menggunakan pasangan ini untuk memperbarui dataset1 .

PERTANYAAN NYATA

Ini semua dapat dilakukan (jelas, saya harap) dengan menggunakan beberapa CTE (WITH pernyataan) untuk mengadakan hubungan perantara:

WITH original_keys AS
(
    -- This creates tuples (id, rn), 
    -- where rn increases from 1 to number or rows
    SELECT 
        id, 
        row_number() OVER  () AS rn
    FROM 
        dataset1
)
, shuffled_data AS
(
    -- This creates tuples (column1, rn)
    -- where rn moves between 1 and number of rows, but is randomly shuffled
    SELECT 
        column1,
        -- The next statement is what *shuffles* all the data
        row_number() OVER  (ORDER BY random()) AS rn
    FROM 
        dataset2
)
-- You update your dataset1
-- with the shuffled data, linking back to the original keys
UPDATE
    dataset1
SET
    column4 = shuffled_data.column1
FROM
    shuffled_data
    JOIN original_keys ON original_keys.rn = shuffled_data.rn
WHERE
    dataset1.id = original_keys.id ;

Perhatikan bahwa trik dilakukan dengan cara:

row_number() OVER (ORDER BY random()) AS rn

row_number() fungsi jendela yang menghasilkan angka berurutan sebanyak baris, mulai dari 1. Angka-angka ini diacak secara acak karena OVER klausa mengambil semua data dan mengurutkannya secara acak.

CEK

Kita bisa cek lagi:

SELECT count(DISTINCT column4) FROM dataset1 ;

| count |
| ----: |
|    20 |

SELECT * FROM dataset1;

 id | column4       
--: | :-------------
101 | SOMETHING 1016
102 | SOMETHING 1009
103 | SOMETHING 1003
...
118 | SOMETHING 1012
119 | SOMETHING 1017
120 | SOMETHING 1011

ALTERNATIF

Perhatikan bahwa ini juga dapat dilakukan dengan subquery, dengan substitusi sederhana, bukan CTE. Itu mungkin meningkatkan kinerja di beberapa kesempatan:

UPDATE
    dataset1
SET
    column4 = shuffled_data.column1
FROM
    (SELECT 
        column1,
        row_number() OVER  (ORDER BY random()) AS rn
    FROM 
        dataset2
    ) AS shuffled_data
    JOIN 
    (SELECT 
        id, 
        row_number() OVER  () AS rn
    FROM 
        dataset1
    ) AS original_keys ON original_keys.rn = shuffled_data.rn
WHERE
    dataset1.id = original_keys.id ;

Dan lagi...

SELECT * FROM dataset1;

 id | column4       
--: | :-------------
101 | SOMETHING 1011
102 | SOMETHING 1018
103 | SOMETHING 1007
...
118 | SOMETHING 1020
119 | SOMETHING 1002
120 | SOMETHING 1016

Anda dapat memeriksa seluruh penyiapan dan eksperimen di dbfiddle di sini

CATATAN:jika Anda melakukan ini dengan kumpulan data yang sangat besar, jangan berharap itu menjadi sangat cepat. Mengocok setumpuk kartu yang sangat besar itu mahal.

Kasus 2:jumlah baris dalam kumpulan data1> baris dalam kumpulan data2

Dalam hal ini, nilai untuk column4 dapat diulang beberapa kali.

Kemungkinan termudah yang dapat saya pikirkan (mungkin, bukan yang efisien, tetapi mudah dimengerti) adalah membuat fungsi random_column1 , ditandai sebagai VOLATILE :

CREATE FUNCTION random_column1() 
    RETURNS TEXT
    VOLATILE      -- important!
    LANGUAGE SQL
AS
$$
    SELECT
        column1
    FROM
        dataset2
    ORDER BY
        random()
    LIMIT
        1 ;
$$ ;

Dan gunakan untuk memperbarui:

UPDATE
    dataset1
SET
    column4 = random_column1();

Dengan cara ini, beberapa nilai dari dataset2 mungkin tidak digunakan sama sekali, sedangkan yang lain akan digunakan lebih dari sekali.

dbfiddle di sini