데이터사이언스 3

[머신러닝] 배치학습과 온라인학습(점진적 학습)

머신러닝 시스템을 분류하는 또 다른 기준은 입력 데이터 스트림(stream)로부터 점진적으로 학습이 가능한지의 여부이다. 배치학습(batch learning 배치학습(batch learning)에서는 시스템이 점진적으로 학습할 수 없다. 가용한 데이터 모두 사용하여 훈련시켜야 하는데, 일반적으로 이 방식은시간과 자원을 많이 소모하기 때문에 오프라인에서 수행된다. 먼저 시스템을 훈련시키고 난 다음 제품에 적용하면 더 이상의 학습없이 실행된다. 다시 말해, 학습한 것을 단지 적용 만 하는 것이다. 그래서 오프라인 학습(offline learning)이라 한다. 배치학습 시스템이 새로운 데이터에 대해 학습하기 위해서는 이전 데이터도 포함한 전체 데이터를 사용하여 시스템의 새로운 버전을 처음부터 다시 훈련해야한..

카테고리 없음 2024.02.27

[머신러닝]따라해보기

머신러닝을 배울 때는 인공적으로 만들어진 data set이 아닌 실제 데이터로 실험해 보는 것이 좋다. 1) 문제정의 우리가 머신러닝을 배울때, 모델을 만드는 것이 최종 목적은 아니다. 문제를 어떻게 구성할지, 어떤 알고리즘을선택할지, 모델평가에 어떤 성능 지표를 사용할지, 모델 튜닝을 위해 얼마나 노력을 투여할지 결정해야 한다. 구역의 중간 주택 가격에 대한 예측을 해볼 것이다. 레이블된 훈련 샘플(구역의 중간 주택 가격)이 있기에 지도 학습 작업을 해야한다. 또한 값을 예측해야 하므로 회귀문제이다. 좀 더 구체적으로 예측에 사용할 특성이 여러개(구역의 인구, 중간 소득 등)이므로 다변량 회귀(multivariate regression)문제이다. *데이터가 너무 크면(맵리듀스 MapReduce 기술을 ..

카테고리 없음 2023.11.06

[머신러닝]사례 기반 학습과 모델 기반 학습

머신러닝 시스템을 어떻게 일반화(generalization) 되는가에 따라 분류할 수도 있다. 대부분의 머신러닝 작업은 예측을 하는 것이다. 즉, 주어진 traning data로 학습하지만 training data에서는 본적 없는 새로운 data로 일반화되어야 한다는 것이다. 머신 러닝의 궁극적인 목표라고 볼 수 있는 이 일반화(gerneralization)은 training data에 대한 높은 성능을 갖추는 것을 의미한다. 일반화를 위한 두 가지 접근법은 사례 기반 학습과 모델 기반 학습이다. 사례 기반 학습(case-based learning) 가장 심플한 형태의 학습으로서 시스템에 단순히 여러 사례(case/instance)를 메모리에 저장하면서 학습을 하기때문에 메모리 기반 학습이라고도 불리운다..

카테고리 없음 2023.03.30
728x90