전체 글 79

[통계분석] 확률분포 / 정규분포 / 기술통계(분위수, 편차)

통계 - 통계의 필요성 전문가의 판단 vs 통계적 예측 루이스 골든버그: 전문가를 예측하는 모형이 전문가 자신보다 정확 - 통계는 항상 일정하지만 전문가(사람)의 판단은 내부/외부적 잡음에 영향을 받음 - 대상에 대한 전문가의 판단보다 전문가의 판단을 예측하는 통계적 모델이 더 정확 - 전문가의 판단을 예측하는 통계적 모델은 잡음에 영향 x - 왜 통계적 예측은 충분히 사용되지 않는가? 판단을 직접 내릴 때 얻는 만족감(퍼즐이 맞춰지는 느낌)이 보상으로 작용 통계적 지식의 부족과 반감 - 부분을 통해 전체 추측 -> 대부분의 경우 우리는 대상의 일부만 관찰 -> 현실에서는 우연과 불확실성이 존재 => 부분을 통해 전체를 합리적으로 추측하는 것이 중요 변수의 종류 - 행(row) 표에서 가로 방향 한 줄 ..

AI SCHOOL 2023.02.13

[Python] Numpy (배열 연산 / 배열 입출력)

6. 배열 연산 Numpy의 배열 연산은 벡터화(vectorized) 연산을 사용 일반적으로 Numpy의 범용함수(universal functions)를 통해 구현 배열 요소에 대한 반복적인 계산을 효율적으로 수행 브로드캐스팅(Broadcasting) a1 = np.array([1, 2, 3]) print(a1) print(a1 + 5) >> [1 2 3] [6 7 8] a2= np.arange(1, 10).reshape(3,3) print(a2) print(a1+a2) >> [[1 2 3] [4 5 6] [7 8 9]] [[ 2 4 6] [ 5 7 9] [ 8 10 12]] b2 = np.array([1, 2, 3]).reshape(3,1) print(b2) print(a1+b2) >> [[1] [2]..

STUDY 2023.02.12

[Python] Numpy(배열 생성)

Numpy 1. Numpy 특징 - Numerical Python의 약자 - 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체 - 범용적 데이터 처리에 사용 가능한 다차원 컨테이너 - 정교한 브로드캐스팅(broadcasting) 기능 - 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리 - 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리 - 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음 2. 배열 생성 리스트로 배열 만들기 a1 = np.array([1, 2, 3, 4, 5]) print(a1) print(type(a1)) print(a1.shape) # 5개의 element들이 있구나, 쉼표 뒤에 아무것도 없으면 1차원이라는 것 print(a1[0], a..

STUDY 2023.02.12

[SQL] 실무 데이터 분석

2.1 2022년 전체 주문건, 총 매출, 평균 매출 order_items 테이블에서 2022년도의 전체 주문건수, 총 매출, 평균 매출을 조회해보세요. 조회 항목 전체 주문 건수 (total_order_count) 판매 금액 합계_(total_sale_price) 평균 판매 금액 (avg_sale_price) select count(order_id) as total_order_count, sum(sale_price) as total_sale_price, avg(sale_price) as avg_sale_price from `thelook_ecommerce.order_items` where extract(year from created_at) = 2022 where extract(year from cre..

AI SCHOOL/SQL 2023.02.10

[혼공머신] 01. 나의 첫 머신러닝

K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델 - 머신러닝에서 여러 개의 종류(class) 중 하나를 구별해 내는 문제를 분류라고 함 - 2개의 클래스 중 하나를 고르는 문제를 '이진분류'라고 함 도미 데이터 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0, 4..

STUDY/ML 2023.02.10

[Python] 전국 신규 민간 아파트 분양가격 동향

- Tidy-data: 깔끔한 데이터(= 각 변수가 열이고, 관측치가 행이 되도록 배열된 데이터) - 데이터분석 위해서 데이터를 깔끔한 형태로 만들어주는 것이 중요 - 정리가 잘 된 데이터 ≠ 깔끔한 데이터 -> 국가통계데이터포털에서 제공하는 데이터(과거) -> pd.melt 사용 - 열에 있던 데이터를 행으로 녹인다 - 관측치가 행이고 변수가 열이 되는 것 - 깔끔한 데이터는 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 - id_vars는 변하지 않는 칼럼(기준 칼럼) - value_vars가 2개 이상 필요로 할 때는 id_vars 반복될 수 있음 -> melt되는 칼럼의 숫자가 늘어날수록 기준점은 그만큼 반복 할당 https://seong6496.ti..

AI SCHOOL/Python 2023.02.09

[WIL] 7주차

0206 - Tidy-data: 깔끔한 데이터(= 각 변수가 열이고, 관측치가 행이 되도록 배열된 데이터) - 데이터분석 위해서 데이터를 깔끔한 형태로 만들어주는 것이 중요 - 정리가 잘 된 데이터 ≠ 깔끔한 데이터 -> 국가통계데이터포털에서 제공하는 데이터(과거) -> pd.melt 사용 - 열에 있던 데이터를 행으로 녹인다 - wide from: pandas plot()으로 막대의 색상을 다르게 지정하거나 서브플롯을 그리거나 시각화 하기에 좋음 - long form: 변수(ex 연도, 월별)에 따라 x, y, hue(color), column 등을 지정해서 사용하기 좋음 - to_numeric errors에 대해 errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘rai..

AI SCHOOL/TIL 2023.02.09

[Seaborn Tutorial] An introduction to seaborn

An introduction to seaborn import seaborn as sns # 테마 기본값 sns.set_theme >> # 데이터 로드 tips = sns.load_dataset('tips') tips sns.relplot(data = tips, x = 'total_bill', y = 'tip') sns.relplot(data = tips, x = 'total_bill', y = 'tip', col = 'time') sns.relplot(data = tips, x = 'total_bill', y = 'tip', col = 'time', hue = 'smoker') hue : 색을 통한 의미 구분 sns.relplot(data = tips, x = 'total_bill', y = 'tip',..

STUDY 2023.02.08