일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Crawling
- 자바스크립트
- keras
- tensorflow
- TypeScript
- instance
- data analyze
- analyzing
- webcrawling
- ECS
- Agile
- pandas
- opencv
- javascript
- AWS
- data
- Scrum
- python
- 크롤링
- Method
- Project
- visualizing
- matplotlib
- 프로젝트
- DANAWA
- algorithm
- 애자일
- 다나와
- angular
- adaptive life cycle
- Today
- Total
LiJell's 성장기
ADsP 수업01 본문
데이터 분석 준전문가는 데이터 이해에 대한 기본지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 직무를 수행하는 실무자를 말한다.
ADsP는 데이터 준전문가 자격 시험으로 R 프로그래밍 기초에 관한 내용이 있으나, 통계 지식을 묻는 내용 위주로 출제된다.
데이터와 정보
데이터 (Data)
- 이론을 세우는 데 기초가 되는 사실이나 자료
- 기호화, 숫자화한 자료로 프로그램을 운용할 수 있는 형태
- Fact를 나타냄 = 존재적 특성
- 추론이나 예측을 위한 근거 (Basis)의 역할도 수행 (=당위적 특성)
데이터의 종류
데이터의 유형
데이터의 구분은 DIKW 피라미드로 구분하며 각 Data, Info, Knowledge, Wisdom이다.
Data는 정성적, 정량적 데이터
Information은 필요한 시기에 전달된 데이터
Knowledge는 경험을 정보와 결합한 것
Wisdom은 지식의 축처글 통한 창의적인 아이디어 또는 결과이다.
데이터베이스
데이터베이스 관리시스템(DBMS)은 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어이고 데이터베이스와 구분되며 DBMS와 함께 데이터베이스 시스템이라고 한다.
- 데이터의 특성으로 통합, 저장, 공유, 변화가 있으며
- 정보의 축적 및 전달, 정보이용, 정보관리, 정보기술발전, 경제와 산업적 측면이 있다.
- 관계형, 객체지향, 네트워크, 계층형 DBMS가 있다.
DW
- DW의 4대 특성으로 데이터 주체 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비 휘발성이 있다.
빅데이터의 이해
- 가트너 그룹의 더그 레이니는 2011년 빅데이터를 3V모델로 정의했다.
Volume, Variety, Velocity
- 추가로 비지니스 적 면에서 Value도 때로 추가된다.
데이터의 크기를 나타내는 단위
- 빅데이터는 데이터, 기술, 인재 및 조직 변화를 만들었다.
- 데이터 -> 기술 -> 인재 및 조직 변화로 점차 확대되고 있다.
빅데이터 기능과 비유
빅데이터가 만들어 내는 본질적 변화
1. 사전처리 -> 사후처리
2. 표본저사 -> 전수조사
3. 질 -> 양
4. 인과관계 -> 상관관계
빅데이터 활용 테크닉 7가지
1. 연관 규칙 학습
2. 유형분석
3. 유전 알고리즘
4. 기계학습
5. 회귀분석
6. 감정분석
7. 소셜 네트워크 분석
원시 데이터 구성
데이터 레이크(Data Lakes)
- 막대한 원시 데이터 (raw data)를 본연의 형식 그래도 저장하는 것을 의미한다.
- 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템이다
- 수 많은 사물로부터 데이터를 수집하는 사물인터넷(Iot)에서 데이터레티크의 중요성이 커지고 있다.
Meta data는 데이터를 위한 데이터로 데이터를 식별하기 위한 데이터를 말한다
- 도서관에 있는 책을 구분하기위한 라벨같은 개념
빅데이터로 인한 위기 요인과 통제방안
따라서 개인정보 보호 가이드 라인으로 데이터를 가공할 때 비식별화 한다.
- 비식별화
- 익명 데이터
- 가명처리
- 총계처리 또는 평균값 대체
- 데이터 값(가치) 삭제
- 범주화
- 데이터 마스킹
데이터 사이언스
데이터 사이언스는 기존 통계확과 다르게 총체적 접근법을 사용한다. 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 접근하는 방법이다.