AI SCHOOL 58

[통계분석] 상관분석 / 회귀분석

순서 1. 순서형인지 연속형인지 범주형인지 2. 독림표본이나 대응표본이냐 3. 그런데 좀 특이하게 분산분석이 들어간다 독립표본 t: 두 집단의 평균 비교 대응표본 t: 두 집단의 자료를 쌍으로 묶을 수 있을 때 차이의 평균 비교 맨-휘트니 U 검정: 두 집단의 순서형 변수를 비교 a, b 집단 비슷할 때 순서 a, b, a, b 이렇게 서고 집단이 안 비슷하면 a,a,a b,b,b 이렇게 되면 귀무가설 기각(밑 이미지 참고) 줄을 섰는데 튀는 데이터가 있어도 순서대로 서기만 하면 되니까 큰 문제가 되지 않음, 극단치 있어도 쓸 수는 있다 분산 분석: 셋 이상 집단의 평균 비교 카이제곱 적합도 검정: 관찰된 빈도가 기대되는 빈도와 일치하는지 확인 카이제곱 독립성 검정: 두 범주 변수 간에 관계가 있는지 맥..

AI SCHOOL 2023.02.16

[통계분석]

모집단과 표본 모집단 population : 연구의 관심이 되는 집단 전체 -> 무한, 실제로 다 보는 것은 불가능(전수조사할 때만 가능 but, 거의 불가능) 표본 sample : 특정 연구에서 선택된 모집단의 부분 집합 표집 sampling : 모집단에서 표본을 추출하는 절차. '표본 추출'이라고도 함 -> 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본 추출하여 모집단에 대해 추론 모수 파라미터: 어떤 시스템의 특성을 나타내는 값 모수: 모집단의 파라미터 -> 모집단의 특성을 나타내는 값 -> 모수를 구하기 위해서는 전수조사가 필요 (사실상 어려움) / 표본의 크기를 모수라고 하는 경우도 있으나 잘못된 표현! 통계량 표본에서 얻어진 수로 계산한 값(= 통계치) '모집단의 통계랑'이..

AI SCHOOL 2023.02.15

[통계분석] 확률분포 / 정규분포 / 기술통계(분위수, 편차)

통계 - 통계의 필요성 전문가의 판단 vs 통계적 예측 루이스 골든버그: 전문가를 예측하는 모형이 전문가 자신보다 정확 - 통계는 항상 일정하지만 전문가(사람)의 판단은 내부/외부적 잡음에 영향을 받음 - 대상에 대한 전문가의 판단보다 전문가의 판단을 예측하는 통계적 모델이 더 정확 - 전문가의 판단을 예측하는 통계적 모델은 잡음에 영향 x - 왜 통계적 예측은 충분히 사용되지 않는가? 판단을 직접 내릴 때 얻는 만족감(퍼즐이 맞춰지는 느낌)이 보상으로 작용 통계적 지식의 부족과 반감 - 부분을 통해 전체 추측 -> 대부분의 경우 우리는 대상의 일부만 관찰 -> 현실에서는 우연과 불확실성이 존재 => 부분을 통해 전체를 합리적으로 추측하는 것이 중요 변수의 종류 - 행(row) 표에서 가로 방향 한 줄 ..

AI SCHOOL 2023.02.13

[SQL] 실무 데이터 분석

2.1 2022년 전체 주문건, 총 매출, 평균 매출 order_items 테이블에서 2022년도의 전체 주문건수, 총 매출, 평균 매출을 조회해보세요. 조회 항목 전체 주문 건수 (total_order_count) 판매 금액 합계_(total_sale_price) 평균 판매 금액 (avg_sale_price) select count(order_id) as total_order_count, sum(sale_price) as total_sale_price, avg(sale_price) as avg_sale_price from `thelook_ecommerce.order_items` where extract(year from created_at) = 2022 where extract(year from cre..

AI SCHOOL/SQL 2023.02.10

[Python] 전국 신규 민간 아파트 분양가격 동향

- Tidy-data: 깔끔한 데이터(= 각 변수가 열이고, 관측치가 행이 되도록 배열된 데이터) - 데이터분석 위해서 데이터를 깔끔한 형태로 만들어주는 것이 중요 - 정리가 잘 된 데이터 ≠ 깔끔한 데이터 -> 국가통계데이터포털에서 제공하는 데이터(과거) -> pd.melt 사용 - 열에 있던 데이터를 행으로 녹인다 - 관측치가 행이고 변수가 열이 되는 것 - 깔끔한 데이터는 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 - id_vars는 변하지 않는 칼럼(기준 칼럼) - value_vars가 2개 이상 필요로 할 때는 id_vars 반복될 수 있음 -> melt되는 칼럼의 숫자가 늘어날수록 기준점은 그만큼 반복 할당 https://seong6496.ti..

AI SCHOOL/Python 2023.02.09

[WIL] 7주차

0206 - Tidy-data: 깔끔한 데이터(= 각 변수가 열이고, 관측치가 행이 되도록 배열된 데이터) - 데이터분석 위해서 데이터를 깔끔한 형태로 만들어주는 것이 중요 - 정리가 잘 된 데이터 ≠ 깔끔한 데이터 -> 국가통계데이터포털에서 제공하는 데이터(과거) -> pd.melt 사용 - 열에 있던 데이터를 행으로 녹인다 - wide from: pandas plot()으로 막대의 색상을 다르게 지정하거나 서브플롯을 그리거나 시각화 하기에 좋음 - long form: 변수(ex 연도, 월별)에 따라 x, y, hue(color), column 등을 지정해서 사용하기 좋음 - to_numeric errors에 대해 errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘rai..

AI SCHOOL/TIL 2023.02.09

[mini project 2] 공공데이터를 활용한 대한민국 산업재해 현황 분석

사용한 데이터 라이브러리 및 데이터 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import plotly import plotly.express as px import koreanize_matplotlib df_sectors = pd.read_csv('전체_재해_현황_및_분석업종별_산업별_중분류__20230202111602.csv', encoding = 'cp949') df_age = pd.read_csv('전체_재해_현황_및_분석연령별_산업별_중분류_21년', encoding = 'cp949') df_dt = pd.read_csv('118_DT_11806_..

AI SCHOOL/project 2023.02.05

[SQL] WITH / 서브쿼리 연습문제 - 1

SQL 연습문제 10-1 thelook_ecommerce 데이터 세트, events 테이블에는 유저의 웹 사이트 접속기록 데이터가 기록되어있습니다. 이벤트 기록에서 이벤트 타입이 purchase인 이벤트가 10번 이상 등록된 사람을 "실 고객"라고 부릅니다. 실고객에 해당하는 회원의 **이벤트 정보(events)**들을 유저 아이디 순으로 조회하세요. 실고객에 해당하는 user_id들을 먼저 구한뒤에 해당 user_id들을 이용해서 이벤트 정보를 조회하세요. 조회 항목 : 이벤트id(id), 유저ID(user_id), 도시(city), 주(state), 우편번호(postal_code), 브라우저 종류(browser), 유입경로(traffic_source), 이벤트 타입(event_type) 정렬 : 유저..

AI SCHOOL/SQL 2023.02.02

[SQL] WITH / 서브쿼리

1. 서브쿼리(Sub Query) - 서브쿼리는 다른 SQL문 안에 중첩된 SELECT문 국가가 ‘Brasil’인 유저의 주문정보(orders)를 조회 하는 쿼리 - orders를 조회하는 select문의 where절 안에서 user의 국가가 ‘Brasil’인 id를 조회하는 쿼리를 하위로 넣어서 실행 select * from `thelook_ecommerce.orders` where user_id in ( select id from `thelook_ecommerce.users` where country = 'Brasil' ) FROM절에서 사용되는 서브쿼리 select id, a.first_name, a.last_name, b.order_count as order_count from `thelook_e..

AI SCHOOL/SQL 2023.02.02

[Python] Plotly / FinanceDataReader

high-level interface : 사람에 더 가까운 -> 사람이 이해하기 더 쉬운 인터페이스, 복잡한 기능을 단순하게 만들어 놓은 인터페이스 / 추상화 그래프를 시각화 하기 위해서 어떤 정보를 API에 주어야 할까? (원래도 궁금했던 거임~) 1) 어떤 그래프로 시각화 할지 고른다 ex) 막대, 선, 산점도, 히스토그램 등 2) 어떤 데이터를 시각화 할지 API에 설정 3) x, y축을 설정 4) 제목, 그래프 크기, 범례, 서브플롯, 스타일 등을 설정 5) bar(data, x, y)와 유사한 API를 대부분 갖고 있음 Plotly 는? 파이썬의 대표적인 인터랙티브 시각화 도구 Plotly Python Graphing Library | Python | Plotly Financial Charts ..

AI SCHOOL/Python 2023.02.02