1) 빅데이터의 이해

데이터란 무엇인가?

– 추론과 추정의 근거를 이루는 사실

– 현실 세계에솨 관찰하거나 측정하여 수집한 사실

– 다른 객체와 상호관계 속에서 더 큰 가치

– 객관적 사실이라는 존재적 특성

 

데이터의 구분

– 정량적 : 주로 숫자로 이루어진 데이터

└ 정형 / 반정형, 객관적

└ 데이터베이스, 스프레드시트

– 정성적 : 문자와 같은 텍스트로 구성됨

└ 비정형, 주관적

└ 웹 로그, 텍스트 파일

 

데이터의 유형

– 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성, 연산 가능

예) 관계형 데이터베이스 테이블 저장 데이터

– 반정형 데이터 : 형식 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터

예) XML, HTML 등

– 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터, 연산 불가

예) 동영상, 이미지, 음성, 문서 등

 

데이터의 분류 (근원에 따라)

– 가역 데이터 : 데이터 원본으로 일정 수준 환원 가능한 데이터. 원본과 1:1 관계 –> 이력 추적 가능, 원본 데이터 변경 시 변경사항 반영 가능

– 불가역 데이터 : 원본으로 환원 불가. 원본 데이터와 전혀 다른 형태로 재생산

 

지식 창조 메카니즘

– 공통화 / 표출화 / 연결화 / 내면화 / 공통화 … 로 연결 됨

└ 공통화 : 서로의 경험이나 인식 공유 / 표출화 : 암묵지가 구체화되어 형식지로 표현

연결화 : 형식지를 재분류하여 체계화 / 내면화 : 다시 개인의 것으로 만듦

 

데이터베이스의 정의

– 체계적이거나 조직적으로 정리되고 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

 

데이터베이스 관리 시스템 (DBMS) 의 종류

– 관계형 (테이블로 표현), 객체지향 (객체 형태로 표현), 네트워크 (그래프 구조 기반), 계층형 (트리 구조 기반)

– SQL (Structured Query Language) : 데이터베이스 접근 시 사용 언어. 단순 질의 기능 외에 데이터 정의, 조작 기능 있음

 

데이터베이스 특징

– 통합 : 중복 저장되지 않음

– 저장 : 컴퓨터가 접근할 수 있는 저장매체에 저장

– 공용 : 여러 사용자가 서로 다른 목적으로 데이터 함께 이용

– 변화 : 지속적으로 갱신

 

데이터베이스의 장단점

– 장점 : 중복 최소화, 실시간, 보안 강화, 독립성, 일관성, 무결성, 공유 용이

– 단점 : 구축과 유지에 비용 발생, 백업과 복구 등의 관리 필요

 

데이터베이스의 활용

– OLTP (Online Transaction Processing) : 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나. 데이터 수시로 갱신

└ 현재 시점의 데이터만을 데이터베이스가 관리

└ 데이터 구조 복잡, 정규적 핵심 데이터 성격

– OLAP (Online Analytical Processing) : 정보 위주의 분석 처리, OLTP에서 처리된 데이터를 분석하여 프로세싱 함

└ 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터 접근

└ 데이터 구조 단순, 비정규적 읽기 전용 데이터

 

데이터 웨어하우스

– 사용자 의사결정 도움 위해 공통의 형식으로 데이터 변환하여 관리하는 데이터베이스

└ 주제지향성, 통합성 (일관된 형태), 시계열성 (시점별로 이어짐), 비휘발성 (일괄 처리 갱신 외에 변경 수행 X)

 

빅데이터의 개요

– 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집, 저장, 분석이 어려운 데이터를 의미 (정형 비정형 모두)

└ 일반적인 데이터베이스 SW로 관리할 수 있는 범위 초과하는 규모

└ 대용량 데이터 활용으로 새로운 통찰이나 가치 추출

 

빅데이터 등장과 변화

– 데이터 많이 축적 –> 데이터에 숨어 있는 가치 발굴하여 새로운 성장 동력으로 활용

– 거대 데이터 다루는 학문 분야 확산 –> 필요한 기술 아키텍처 및 분석 기법 발전

– 데이터 처리 시점 : 사전 –> 사후 처리로 이동

└ 가능한 많은 데이터 모으고 다양한 방식으로 조합하여 숨은 정보 얻음

– 데이터 가치 판단 기준 : 질 보단 양! –> 샘플링이 주지 못한 패턴이나 정보 발견

 

빅데이터 특징

– 5V : Volume (규모 – 대용량화), Variety (유형 – 다양화), Velocity (속도 – 고속화), Veracity (품질), Value (가치)

└ 앞에 3V : 가트너 그룹이 빅데이터 특징 설명한 내용

 

빅데이터 활용 3요소

– 자원 : 실시간 수집 데이터 –> 전처리 과정 통해 품질 향상

– 기술 : 데이터 마이닝 (데이터 분석 및 시각화), AI 기술 활용한 학습 및 처리

– 인력 : 통계학, 수학, 컴퓨터공학, 경영학 분야 전문 지식, 데이터 분석 및 결과 해석

 

데이터 산업의 진화

– 처리 / 통합 / 분석 / 연결 / 권리 시대로 진화

└ 정확하기 기록 역할에서 분석 수준 향상으로 데이터 자원 활용 가능해짐

 

데이터 산업의 구조

– 인프라 영역 : 데이터 수집, 저장, 분석, 관리 등의 기능

– 서비스 영역 : 컨실팅 / 솔루션

 

빅데이터 조직 구성

– 데이터 분석 업무 수행 주체에 따라 : 집중형 / 기능형 / 분산형

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다