반응형

🍕 서론

운이 좋게  KT 넥스알 빅데이터 엔지니어 신입(인턴) 직무 면접을 보게 되었습니다. 면접을 하루 앞 두고 머리속을 정리하고자 이렇게 글을 남기게 되었습니다.


🍔 본론

● 내가 생각하는 빅데이터 엔지니어란 ?

데이터를 수집, 정제하고 이를 기반으로 다른 구성원들이 해당 데이터를 잘 활용할 수 있도록 도와주는 역활이라고 생각합니다. 또한, 개발된 솔루션을 고객사에서 원할하게 사용할 수 있도록 솔루션 설치 및 기술 지원에 대한 도움까지 주는 포지션이라고 생각합니다. 

 

● OLAP(On-Line Analytical Processing)

온라인상에서 데이터를 분석하고 처리하는 것을 의미합니다. 결과적으로 최종 사용자가 다차원 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정하여 활용하는 과정을 말합니다. 최종 사용자가 기업의 전반적인 상황을 이해할 수 있게 하고 의사결정을 지원합니다.

 

● OLTP(On-Line Transaction Processing)

효율적인 기업 운영을 지원하기 위해 트랜잭션(처리 정보)을 수집하고 분류, 저장, 유지보수, 갱신, 검색하는 기능을 수행하는 실시간 거래 처리 시스템으로 기업의 본연 업무를 지원하는 기간 시스템입니다. 예로 항공사의 예약 시스템이나 은행의 창구 업무 시스템을 예로 들 수 있습니다. 

 

● OLAP vs OLTP

OLAP는 의사 결정에 도움되는 데이터에 중점을 두고 OLTP는 현재 발생하는 트랜잭션 처리에 중점을 둡니다.

 

● ETL과 데이터 전처리

데이터웨어하우스를 사용하여 추출(Extract), 변환(Transform), 적재(Load) 하는 일련의 모든 과정을 의미합니다. 이렇게 가공돈 데이터를 통해 머신 러닝이나 딥러닝 모델에 적용합니다. 이처럼 올바른 데이터 분석 결과를 얻기 위해 획득한 데이터를 올바르게 처리하는 과정을 데이터 전처리라고 할 수 있습니다.

 

● 데이터 파이프라인

데이터를 분석하고 활용하기 위해서는 분산되어 저장된 데이터들을 한 곳으로 모으는 작업은 필수입니다. 그리고 이를 모으는 매게채 역활을 데이터 파이프라인 이라고 합니다. 이러한 예로 아파치 카프카를 예로 들 수 있습니다.

 

● NoSQL

기존의 정형화된 데이터 뿐만 아니라 메신저 텍스트, 음성 등 비정형화된 데이터가 많이 발생되고 있습니다. 또한, 클라우드 또는 분산형 컴퓨팅이 주목 받기 시작했습니다. 그리고 NoSQL은 분산형 컴퓨팅에 최적화되어 있고  확장성이 뛰어납니다. SQL이 스키마(릴레이션을)을 구성해 Column을 기반으로 사용되었다면, NoSQL은 Key Value, 그래프 등 다양한 데이터 모델을 가지고 있습니다. SQL은 MySQL, MariDB, SQLite 등이 있으며, NoSQL은 MongDB 가 있습니다.

(사용을 안 해봐서 감이 안온다..1)

 

● 하둡(Hadoop)

대용량 데이터의 저장과 분석이 가능한 오픈소스 프레임 워크입니다. 강력한 병렬 프로세싱을 자랑합니다. 실시간 처리가 아닌 배치 형태로 작동됩니다.

(사용을 안 해봐서 감이 안온다..2)

 

● 맵리듀스와 HDFS

맵리듀스는 하둡의 계산을 담당하고 HDFS는 하둡의 스토리지(공유 데이터)를 담당합니다.

  1. 맵 리듀스 - 데이터 처리를 위한 프로그래밍 모델
  2. HDFS - 네트워크로 연결된 여러 머신의 스토리지를 관리하는 하둡의 저장소 역할

● 카프카(Kafka)

링크드인에서 개발된 프레임 워크로 실시간 스트림 프로세싱 분야에서 하둡과 같은 존재입니다.

 

● 스파크(Spark)

범용적인 분산 환경을 고성능 클러스터링 플랫폼입니다. 메모리에서 동작하므로 하둡보다 100배 빠른 속도를 보장합니다.

 

● 주키퍼(Zookeeper)

분산 시스템을 위한 코디네이터입니다.

 

● 나이파이(Nifi)

데이터 흐름을 모니터링하기 위한 프레임 워크입니다.

 

반응형

'취준 > 면접 준비' 카테고리의 다른 글

[면접준비] 스프링 개발자 / 백엔드 개발자  (0) 2020.08.26

+ Recent posts