전체 글 79

[ML] fit_transform()과 transform()

1. fit_transform()과 transform()의 차이 2. train 데이터에 fit_transform()이 아니라 transform()을 사용한다면? 3. train데이터와 test데이터를 나누기 전에 one hot encoding 해도 될까? 4. pd.get_dummies()와 sklearn의 OneHotEncoder()의 차이 fit_transform()과 transform()의 차이 - fit_transform() 메서드는 모델을 학습(fit)하고 데이터를 변환(transform)하는 과정을 한 번에 수행 - 즉, 학습 데이터에 대해서는 모델을 학습(fit)하고, 학습된 모델을 사용하여 학습 데이터를 변환(transform) but, 테스트 데이터는 모델을 학습시키는 과정에서 사용되지..

STUDY/ML 2023.03.18

[ML] Binary Encoding과 One Hot Encoding

Binary Encoding One Hot Encoding 공통점 - 범주형 변수를 수치형 변수로 변환 차이점 - 각 범주에 대한 고유의 이진 패턴 할당 - 각 범주를 해당하는 항목이 1이고 다른 항목이 0인 이진 벡터로 인코딩 - 세 가지 범주가 있다면, 첫 번째 범주는 "001", 두 번째 범주는 "010", 세 번째 범주는 "100"으로 인코딩 - 세 가지 범주가 있다면, 첫 번째 범주는 "1 0 0", 두 번째 범주는 "0 1 0", 세 번째 범주는 "0 0 1"로 인코딩 - 비교적 적은 자리수의 이진 비트를 사용하여 데이터 크기를 줄일 수 있음 - 범주의 수와 관계없이 모든 범주에 대해 동일한 수의 이진 비트를 사용하여 데이터를 표현 Binary Encoding import pandas as p..

STUDY/ML 2023.03.18

[ML] one-hot encoding / Random Forest

Decision Tree의 단점 - overfitting: Decision tree는 학습 데이터에 과도하게 학습할 수 있어서, 과적합(overfitting)이 발생하기 쉬움 - 결정 경계의 수직/수평선 문제: Decision tree는 분류 경계를 수직 또는 수평선으로만 설정하기 때문에, 데이터가 대각선 방향으로 구분되는 경우 결정 경계를 잘 파악하지 못할 수 있음 - 불균형 데이터셋 처리 문제 - 연속형 변수 처리 문제: Decision tree는 연속형 변수를 처리하기에 적합하지 않습니다. 일반적으로 연속형 변수를 범주형 변수로 변환한 후에 사용해야 함 -> 이러한 단점 보완하기 위해 앙상블 기법 중 하나인 배깅 기법 사용한 랜덤포레스트 사용 Random Forest # RandomForestCla..

AI SCHOOL 2023.03.18

[ML] Decision Tree

Decision Tree # 모델 불러오기 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier(criterion= 'entropy', random_state=42) # 학습하기 model.fit(X_train, y_train) # 예측하기 y_predict = model.predict(X_test) # 정확도 측정하기 (y_test == y_predict).mean() from sklearn.metrics import accuracy_score accuracy_score(y_test, y_predict) 데이터셋 확인 및 전처리 데이터셋: Telco Customer Churn - https://www.kaggle.c..

AI SCHOOL 2023.03.17

[ML] Clustering

머신러닝, 딥러닝에서 추상화된 도구(Scikit-learn, TensorFlow, PyTorch, Transformer, FastAI 등) 를 사용했을 때의 장점과 단점 - 장점 개발 시간 단축 정확성 향상(추상화된 도구는 일반적으로 더욱 정확한 모델을 구출 할 수 있도록 도움) 재사용성 - 단점 일반성 부족(추상화된 도구는 특정 프레임워크나 라이브러리에 종속될 수 있기 때문에 일반성 부족) 실제 동작의 이해 부족(추상화된 도구를 사용하면 모델의 동작 메커니즘을 완전히 이해하지 못할 수 있음) 일부 원하는 기능이 구현되어있지 않을 수 있으며 개발자가 구성할 수 있는 옵션이 적을 수 있음 지도학습과 비지도학습 - 지도학습 : 정답 (Label) 있는 데이터를 학습 분류 : 범주형 데이터를 각 class별로..

AI SCHOOL 2023.03.12

[Python] 비즈니스 데이터 분석(RFM)

RFM(Recency, Frequency, Monetary) - RFM은 가치있는 고객을 추출해내어 이를 기준으로 고객을 분류할 수 있는 방법 -> 마케팅에서 가장 많이 사용되고 있는 분석방법 중 하나 - RFM은 구매 가능성이 높은 고객을 선정하기 위한 데이터 분석 방법으로 이 과정을 통해 데이터는 의미있는 정보로 전환 Recency - 거래의 최근성: 고객이 얼마나 최근에 구입했는가? Frequency - 거래빈도: 고객이 얼마나 빈번하게 우리 상품을 구입했나? Monetary - 거래규모: 고객이 구입했던 총 금액은 어느 정도인가? - 현재 개발된 RFM 모형은 크게 4가지로 분류 가능 -> but, 정설은 아니며 신뢰하기 어려움을 전제로 참고 모델1. RFM 각 요소의 20% rule의 적용 모델..

AI SCHOOL/Python 2023.03.08

[Python] 비즈니스 데이터 분석(Online Retail Data Set)

비즈니스 데이터 분석 - 서비스의 특징에 따라 봐야하는 지표가 다르다. - 회원가입에 집중? 돈을 쓰는 고객에 집중? 신규 고객 유치에 집중? - 광고, 프로모션, 오프라인 행사 등 여러가지 마케팅을 실시 구독 서비스라면 이탈률이 중요한 지표 - ARPU(Average Revenue Per User, 앱 활동 사용자의 1인당 평균 결제 금액 = 매출 / 중복을 제외한 순수 활동 사용자 수) - ARPPU(Average Revenue Per Paying User, 유료 사용자 1인당 평균 결제 금액 = 매출 / 중복을 제외한 순수 유료 사용자 수) - MRR - ARR https://easytoread.tistory.com/entry/CAC-CPA-%EC%B0%A8%EC%9D%B4 【마케팅】 CAC, CP..

AI SCHOOL/Python 2023.03.07

[통계분석] 상관분석 / 회귀분석

순서 1. 순서형인지 연속형인지 범주형인지 2. 독림표본이나 대응표본이냐 3. 그런데 좀 특이하게 분산분석이 들어간다 독립표본 t: 두 집단의 평균 비교 대응표본 t: 두 집단의 자료를 쌍으로 묶을 수 있을 때 차이의 평균 비교 맨-휘트니 U 검정: 두 집단의 순서형 변수를 비교 a, b 집단 비슷할 때 순서 a, b, a, b 이렇게 서고 집단이 안 비슷하면 a,a,a b,b,b 이렇게 되면 귀무가설 기각(밑 이미지 참고) 줄을 섰는데 튀는 데이터가 있어도 순서대로 서기만 하면 되니까 큰 문제가 되지 않음, 극단치 있어도 쓸 수는 있다 분산 분석: 셋 이상 집단의 평균 비교 카이제곱 적합도 검정: 관찰된 빈도가 기대되는 빈도와 일치하는지 확인 카이제곱 독립성 검정: 두 범주 변수 간에 관계가 있는지 맥..

AI SCHOOL 2023.02.16

[통계분석]

모집단과 표본 모집단 population : 연구의 관심이 되는 집단 전체 -> 무한, 실제로 다 보는 것은 불가능(전수조사할 때만 가능 but, 거의 불가능) 표본 sample : 특정 연구에서 선택된 모집단의 부분 집합 표집 sampling : 모집단에서 표본을 추출하는 절차. '표본 추출'이라고도 함 -> 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본 추출하여 모집단에 대해 추론 모수 파라미터: 어떤 시스템의 특성을 나타내는 값 모수: 모집단의 파라미터 -> 모집단의 특성을 나타내는 값 -> 모수를 구하기 위해서는 전수조사가 필요 (사실상 어려움) / 표본의 크기를 모수라고 하는 경우도 있으나 잘못된 표현! 통계량 표본에서 얻어진 수로 계산한 값(= 통계치) '모집단의 통계랑'이..

AI SCHOOL 2023.02.15