분류 전체보기 19

[SQLD] 요약정리: 1.1 데이터 모델링의 이해

Chapter 1-1. 데이터 모델링의 이해 모델링의 이해 정의 : 다양한 현상을 표기법에 의해 표기하는 것 특징 : 추상화, 단순화, 명확화 모델링의 관점 : 데이터 관점(what), 프로세스 관점(How), 상관관점(Interaction) 데이터 모델링의 이해 정의 : 정보 시스템을 구축하기 위한 데이터 관점의 업무 분석 기법 제공하는 기능 : 시스템 가시화, 시스템 구조와 행동의 명세화, 구조화된 틀 제공, 문서화, 세부사항은 숨기는 다양한 관점 제공 데이터 모델링의 중요성와 유의점 중요성 : 파급효과, 복잡한 요구사항의 간결 표현, 데이터 품질 유의성 : 중복, 비일관성, 비유연성(데이터 정의를 데이터 사용프로세스와 분리 X) 데이터 모델링의 3단계 개념적 : 추상화 수준이 높고 업무 중심적이고 ..

카테고리 없음 2023.11.07

[데이터 사이언스]NumPy로 배우는 선형대수

넘파이 패키지를 사용하기 위해선 다음은 항상 임포트 되어있어야 한다. import numpy as np 데이터 유형 : 스칼라, 벡터, 행렬, 텐서 선형대수에서 다루는 데이터는 크게 네가지 유형으로 나뉜다. 스칼라(scalar) : 하나의 숫자로 이루어진 데이터이다. 벡터(vector) : 여러 개의 숫자 또는 문자가 특정한 순서대로 모여 있는 것이다. \[ \mathbf{x} = (x_1, x_2, \dots, x_n) \in R^n \] n-차원 벡터(n-dimensional vector) * 데이터 벡터가 예측 문제에서 입력 데이터로 사용되면 이때, 이를 특징벡터(feature vector)라 한다. import numpy as np X_1 = np.array([[1,2],[3,4],[5,6]]) ..

카테고리 없음 2023.11.06

[머신러닝]따라해보기

머신러닝을 배울 때는 인공적으로 만들어진 data set이 아닌 실제 데이터로 실험해 보는 것이 좋다. 1) 문제정의 우리가 머신러닝을 배울때, 모델을 만드는 것이 최종 목적은 아니다. 문제를 어떻게 구성할지, 어떤 알고리즘을선택할지, 모델평가에 어떤 성능 지표를 사용할지, 모델 튜닝을 위해 얼마나 노력을 투여할지 결정해야 한다. 구역의 중간 주택 가격에 대한 예측을 해볼 것이다. 레이블된 훈련 샘플(구역의 중간 주택 가격)이 있기에 지도 학습 작업을 해야한다. 또한 값을 예측해야 하므로 회귀문제이다. 좀 더 구체적으로 예측에 사용할 특성이 여러개(구역의 인구, 중간 소득 등)이므로 다변량 회귀(multivariate regression)문제이다. *데이터가 너무 크면(맵리듀스 MapReduce 기술을 ..

카테고리 없음 2023.11.06

[데이터사이언스] sympy로 배우는 미분,적분

예측 모형의 성능 데이터 분석에서 궁극적인 목표는 예측 오차가 가장 작은 최적의 예측모형을 구하는 것이다. 최적의 모형을 구하기 위해서 예측모형 함수의 계수(coefficient)를 바꾸어 본다. 이때, 예측모형 함수의 계수를 모수라고 한다. 모수를 어떤 숫자로 정하느냐에 따라 예측모형의 성능(performance)이 달라진다. 따라서 모수를 결정하여 성능의 크기를 출력하는 함수를 성능함수(performance function)이라고 하며, 성능함수의 값은 클수록 좋다. 반대로 모수를 입력받아 오차 혹은 오류의 크기를 출력하는 함수를 가장 작게 하는 것을 목표로 할 수 도 있다. 이러한 함수는 손실함수(loss function), 비용함수(cost function), 또는 오차함수(error functi..

카테고리 없음 2023.11.06

[SQLD 자격증] 독학 후기(한번에 합격!)

시험 후기 조금 불안한 마음으로 시험장에 도착하였지만, 시험 치는 내내 불안하지는 않았다! 하지만 하나하나 꼼꼼히 풀려다 보니 시험 치는 내내 시간이 모자라겠는데..?라는 느낌은 계속 있었다. 이날은 시험 종료 10분전까지 문제를 풀고 있었고, 약 5문제가량 남아있었다. 하지만 당황하지 않고 먼저 마킹을 하고 남은 문제를 풀면서 바로바로 마킹하기로 했다. 그리하여 시험 종료라는 알림과 함께 내 시험이 끝났다. 아슬아슬하게 시험을 끝낸 내가 불안하지 않았던 이유는 나에게는 어린 시절부터 이어져 온 약간의 징크스 때문이었다. 학창 시절부터 어떤 시험이든 끝내자마자 책이나 요점노트를 다시 들여다보고 싶은 마음이 안 생기면 합격(자격증은)이거나 A이상의 학점(대학시절)이 나왔었다. 반대로 미친 듯이 찾아보고 싶..

카테고리 없음 2023.11.06

[Mac OS] Kivy 설치하기

kivy 공식 사이트를 참고하여 맥북에 설치하는 과정을 소개합니다. [kivy 공식사이트] https://kivy.org/doc/stable/gettingstarted/installation.html Installing Kivy — Kivy 2.2.1 documentation Installing Kivy Installation for Kivy version 2.2.1. Read the changelog here. For other Kivy versions, select the documentation from the dropdown on the top left. Kivy 2.2.1 officially supports Python versions 3.7 - 3.11. Using pip The easiest..

카테고리 없음 2023.11.06

[데이터사이언스] pgmpy를 사용한 확률

확률(probability) 어떤 사건이 일어날 가능성의 정도를 나타내는 척도를 그 사건의 확률이라 하며, 사건이 입력됬을때, 확률값이 출력되는 함수이다. 확률은 다음과 같은 세가지 규칙을 지켜야한다. 1) 모든 사건에 대해 확률은 실수이고 0 또는 양수다. $P(A) \leq 0$ 2) 표본공간(전체집합)이라는 사건(부분집합)에 대한 확률은 1이다. $P(\Omega) =1$ 3) 공통 원소가 없는 두 사건의 합집합의 확률은 사건별 확률의 합이다. $P(A \cup B) = P(A) + P(B) - PA \cap B)$ 조건부확률(conditional probability) 사건 B에 대한 사건 A의 조건부확률(conditional probability) 이라고 하며 다음과 같이 정의한다. \[ P(A..

카테고리 없음 2023.03.31

[머신러닝]사례 기반 학습과 모델 기반 학습

머신러닝 시스템을 어떻게 일반화(generalization) 되는가에 따라 분류할 수도 있다. 대부분의 머신러닝 작업은 예측을 하는 것이다. 즉, 주어진 traning data로 학습하지만 training data에서는 본적 없는 새로운 data로 일반화되어야 한다는 것이다. 머신 러닝의 궁극적인 목표라고 볼 수 있는 이 일반화(gerneralization)은 training data에 대한 높은 성능을 갖추는 것을 의미한다. 일반화를 위한 두 가지 접근법은 사례 기반 학습과 모델 기반 학습이다. 사례 기반 학습(case-based learning) 가장 심플한 형태의 학습으로서 시스템에 단순히 여러 사례(case/instance)를 메모리에 저장하면서 학습을 하기때문에 메모리 기반 학습이라고도 불리운다..

카테고리 없음 2023.03.30
728x90