본문 바로가기

Data Engineering

(19)

[DataBase] I/O 메커니즘 - 튜닝 지표 ** 데이터 진흥원 - SQL 전문가 가이드의 [과목3-1장-3절] 내용 튜닝의 기준이 되는 I/O 관리 지표들에 대해 알아본다. 1) 블록 > 모든 데이터 이동은 블록 단위로 진행된다. 블록을 잘 관리해야 한다. - 한 행을 읽어도 블록 단위로 읽는다 : 버퍼 캐시, 데이터 파일 모두 블록이 기본 단위 - 지표 01 : 논리적인 블록 읽기 량 (옵티마이저 판단의 가장 큰 지표), SQL 쿼리 작성 시부터 논리적으로 튜닝 필요 2) 메모리 I/O (버퍼 : 전기적 신호 : 빠름) vs 디스크 I/O (파일 : 물리적 움직임 : 느림) > 메모리 I/O의 활용을 최대화시키는 것이 목표가 된다. - 지표 02 : 버퍼 캐시 히트율(BCHR) : "버퍼 캐시에서 읽은 블록 수 / 전체 읽은 블록 수" ** 버..

[DataBase] 인덱스의 원리 & 스캔 & 최적화 ** 데이터 진흥원 - SQL 전문가 가이드의 [과목3-3장 : 인덱스 튜닝] 내용 1) 인덱스 기본 원리 ◼︎ 구조 : Tree 구조 / 양방향 리스트(Double Linked List) ◼︎ 탐색 : (1) 루트부터 리프까지 조건을 따라 내려간다. (2) 리프에서 조건에 맞는 ROWID의 obj, file, block, 블록 내 위치를 참조 (2-1) 조건에 맞는 ROWID가 있는지 주변 탐색, 블록을 넘어갈 경우 다음 블록을 탐색 (3) 데이터 블록에서 레코드를 탐색 ◼︎ 스캔 방식 (1) Index Range Scan (Index Seek) : 가장 일반적으로 트리를 타고 내려가는 방식 (잘 활용하면 sort, min/max를 생략 가능) (2) Index Full Scan (Index Scan)..

[DataBase] SQL 쿼리 처리과정 & HINT ** 데이터 진흥원 - SQL 전문가 가이드의 [과목3-1장-2절] 내용 > SQL은 구조적인 질의 언어이다. 형식이 구조적임으로 최적의 조회 방법을 찾아낼 수 있다. > 아래 엔진들을 거치면서 RDBMS들은 최적의 실행 계획을 찾아낸다 엔진 역할 리턴 Parser SQL문을 파싱하여 파싱트리(내부 구조체)로 변환 + 문법/의미 오류 체크 parsed SQL Optimizer Query Transformer 파싱된 SQL을 좀 더 일반적인 형태로 변환 Execution Plan Estimator 오브젝트/시스템 통계로 각 수행 단계의 선택도/카디널리티/비용을 계산 Plan Generator 후보군이 될만한 실행계획들을 생성 Row-Source Generator 실행계획을 SQL 엔진이 실행할 수 있는 코..

[DataBase] DB별 Architecture >> Oracle, SQL Server의 Architecture 정리 (참고 문헌 : 데이터진흥원 - SQL 전문가 가이드) [Oracle] Architecture [SQL Server] Architecture ** DBMS를 [Instance] : process/memory와 [Database] : storage(데이터 집합)으로 구분하여 정리한다. [Instance] 1) Process 1-1) Server Process : 전면에서 사용자로부터 명령을 전달받아 처리한다. ■ 주요 기능 : SQL 파싱/최적화, 커서 제어(생성, 데이터 취합, 송신) & Background Process Call ** Server Process를 요약하면 Client와 통하는 창이자 Background Process..

[행사] re:Cap - Accelerating innovation in MFG with AWS > re:Cap = re:Invent 요약 전달 행사 / MFG = Manufacturing ◼︎ 일정 No Time Speaker 1 13:30~14:00 Registration 2 14:00~14:30 re:Invent 2023 : Overview 김준성 (Head of Enterprise MFG) 3 14:30~15:15 re:Invent 2023 : 기술 하이라이트 박천구 (Sr. SA Manager of MFG) 4 15:15~15:30 Break Time 5 15:30~16:00 re:Invent 2023 : AI-GenAI 전망 신석주 (Solutions Architecture) 6 16:00~16:30 MFG 사업군 필수 신규 서비스/솔루션 조상만 (Sr. Solutions Architec..

[하이브] 데이터 업로드 (로컬 -> 하둡) 하이브참고 https://www.edureka.co/blog/apache-hive-installation-on-ubuntu 1. apach mirror - hive 다운로드http://mirror.apache-kr.org/hive/ apach-hive.x.x.x-bin.tar.gz 의 이름으로 된 버젼을 받는다. 2. tar.gz 파일 압축 풀기 (hadoop과 가까운 위치로 옮겨서) * 깔끔하게 정리하기 위해 hadoop 폴더와 유사한 위치에 옮겨서 압축을 풀어준다. mv tar xvfp apach-hive-x.x.x-bin.tar.gz 3. hive 경로 지정 그 후, HIVE_HOME 경로를 지정해준다. vi .bash_profile -----# set HIVE_HOME export HIVE_HOM..

helpful source [ about hadoop ] APACHE xxhttps://hive.apache.org/ hivehttp://spark.apache.org/ spark 다운로드https://insightcampus.co.kr/hadoop04/ 스파크 다운로드 전자도서https://wikidocs.net/book/2203 [ 빅데이터 - 하둡, 하이브로 시작하기 ] 블로그sExcelsior-JH님 블로그 [ http://excelsior-cjh.tistory.com/6 ] - 통계, 하둡에 관한 이론적 지식

[기본] 데이터 업로드 (로컬 -> 하둡) 하둡 실행start-all.sh하둡 종료stop-all.sh *실행되면 jps입력 - 정상적으로 실행되는지 확인 hadoop fs -helphdfs dfs -help 필요 명령어 숙지 기본 (직접 업로드) 기능--------------------------------------------------------------------------------------- > 하둡 내에 폴더 생성 # (기본명령어) -mkdir |-p| filename * 최초 생성 시, error 발생하면 |-p| 추가하여 생성 -------------------------------------------------------------------------------------- > 하둡 폴더에 로컬 데이터 올리기 # (기본명..

이전 1 2 3 다음

티스토리툴바