๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Engineering1

[Delta Lake] DB Sink ๋˜๋Š” ๊ฑด๋“ค์˜ ๋ชจ์ˆ˜๋ฅผ ์ค„์—ฌ๋ณด๊ธฐ ๋‚˜๋Š” ๋ฐฑ์—”๋“œ ์—”์ง€๋‹ˆ์–ด์ด์ง€๋งŒ, Databricks ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ์—…๋ฌด๋„ ๊ฒธํ•˜๊ณ  ์žˆ๋‹ค.์ถ”ํ›„ ๊ฐœ๋ฐœ ์ปค๋ฆฌ์–ด๋ฅผ ๋ฐ์ดํ„ฐ ์ชฝ์œผ๋กœ ์ „ํ–ฅํ•˜๊ณ  ์‹ถ๊ธฐ๋„ ํ•˜์—ฌ, ํ˜„์žฌ ํšŒ์‚ฌ์— ์ž…์‚ฌ ์ดํ›„ ์ง€์†์ ์ธ ๋ฉด๋‹ด์—์„œ ๋ฐ์ดํ„ฐ ์—…๋ฌด๋ฅผ ํ•˜๊ณ  ์‹ถ๋‹ค๊ณ  ์ ๊ทน์ ์œผ๋กœ ์–ดํ•„์„ ํ–ˆ๊ณ , ์ฑ•ํ„ฐ ๋ฆฌ๋“œ๋ถ„์€ ์ด๋ฅผ ํ”์พŒํžˆ ๋ฐ›์•„๋“ค์—ฌ์ฃผ์…จ๋‹ค. ์›ํ•˜๋Š” ์—…๋ฌด๋ฅผ ๊ฒธํ•˜๊ฒŒ ๋˜์–ด ์ •๋ง ํ–‰๋ณตํ•˜๋‹ค. Databricks๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ ์‚ฌ์šฉํ•˜๋Š” API๋Š” Apache Spark๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.์‚ฌ์‹ค ์ ๊ทน์ ์ธ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง๋ณด๋‹ค๋Š” ๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ, ๋ฐ์ดํ„ฐ ๋ถ„์„ํŒ€์—์„œ ๋งŒ๋“ค์–ด์ฃผ์‹  Raw Data๋ฅผ ์„œ๋น„์Šค์— ๋งž๊ฒŒ ๊ฐ€๊ณตํ•˜์—ฌ Delta table์— ์ ์žฌํ•œ ํ›„, ์ด๋ฅผ DB Sink ํ•˜๋Š” ์šฉ๋„์˜ ๊ฐœ๋ฐœ์„ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ์ฒ˜์Œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ–ˆ์„ ๋•Œ๋Š”, ์•„๋ฌด๊ฒƒ๋„ ๋ชจ๋ฅด๋Š” ์ƒํƒœ์—์„œ ๊ณต๋ถ€ํ•˜๋ฉฐ ์ง„ํ–‰ํ–ˆ์—ˆ๊ธฐ์— ๋ชจ๋“ .. 2024. 11. 30.
๋ฐ˜์‘ํ˜•