LiJell's 성장기

ADsP 수업01 본문

Bigdata/빅데이터

ADsP 수업01

All_is_LiJell 2021. 12. 14. 18:31
반응형

데이터 분석 준전문가는 데이터 이해에 대한 기본지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 직무를 수행하는 실무자를 말한다.

 

ADsP는 데이터 준전문가 자격 시험으로 R 프로그래밍 기초에 관한 내용이 있으나, 통계 지식을 묻는 내용 위주로 출제된다.

 

데이터와 정보 

데이터 (Data)

- 이론을 세우는 데 기초가 되는 사실이나 자료

- 기호화, 숫자화한 자료로 프로그램을 운용할 수 있는 형태

- Fact를 나타냄 = 존재적 특성

- 추론이나 예측을 위한 근거 (Basis)의 역할도 수행 (=당위적 특성)

 

데이터의 종류

데이터의 유형

 

데이터의 구분은 DIKW 피라미드로 구분하며 각 Data, Info, Knowledge, Wisdom이다. 

Data는 정성적, 정량적 데이터

Information은 필요한 시기에 전달된 데이터

Knowledge는 경험을 정보와 결합한 것

Wisdom은 지식의 축처글 통한 창의적인 아이디어 또는 결과이다.

 

데이터베이스

데이터베이스 관리시스템(DBMS)은 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어이고 데이터베이스와 구분되며 DBMS와 함께 데이터베이스 시스템이라고 한다. 

- 데이터의 특성으로 통합, 저장, 공유, 변화가 있으며 

- 정보의 축적 및 전달, 정보이용, 정보관리, 정보기술발전, 경제와 산업적 측면이 있다. 

- 관계형, 객체지향, 네트워크, 계층형 DBMS가 있다. 

 

DW

ETL은 Extract Transform Load의 약자이다. 

- DW의 4대 특성으로 데이터 주체 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비 휘발성이 있다.

 

빅데이터의 이해

- 가트너 그룹의 더그 레이니는 2011년 빅데이터를 3V모델로 정의했다.

Volume, Variety, Velocity

- 추가로 비지니스 적 면에서 Value도 때로 추가된다. 

 

데이터의 크기를 나타내는 단위

 

- 빅데이터는 데이터, 기술, 인재 및 조직 변화를 만들었다. 

- 데이터 -> 기술 -> 인재 및 조직 변화로 점차 확대되고 있다.

 

빅데이터 기능과 비유 

 

빅데이터가 만들어 내는 본질적 변화 

1. 사전처리 -> 사후처리

2. 표본저사 -> 전수조사

3. 질 ->

4. 인과관계 -> 상관관계

 

 

빅데이터 활용 테크닉 7가지

1. 연관 규칙 학습

2. 유형분석

3. 유전 알고리즘

4. 기계학습

5. 회귀분석

6. 감정분석

7. 소셜 네트워크 분석

 

원시 데이터 구성

데이터 레이크(Data Lakes)

- 막대한 원시 데이터 (raw data)를 본연의 형식 그래도 저장하는 것을 의미한다.

- 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템이다

- 수 많은 사물로부터 데이터를 수집하는 사물인터넷(Iot)에서 데이터레티크의 중요성이 커지고 있다.

 

Meta data는 데이터를 위한 데이터로 데이터를 식별하기 위한 데이터를 말한다

- 도서관에 있는 책을 구분하기위한 라벨같은 개념 

 

 

빅데이터로 인한 위기 요인과 통제방안

따라서 개인정보 보호 가이드 라인으로 데이터를 가공할 때 비식별화 한다.

- 비식별화

- 익명 데이터

- 가명처리

- 총계처리 또는 평균값 대체

- 데이터 값(가치) 삭제

- 범주화

- 데이터 마스킹 

 

데이터 사이언스

데이터 사이언스는 기존 통계확과 다르게 총체적 접근법을 사용한다. 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 접근하는 방법이다. 

반응형

'Bigdata > 빅데이터' 카테고리의 다른 글

CLI  (0) 2021.12.21
Comments