AI SCHOOL/TIL

[TIL] 멋사 AI SCOOL DAY 9 - 데이터사이언스 개요, 판다스(pandas)

moru_xz 2023. 1. 9. 23:02

멋사 AI SCOOL 8일차

: 데이터사이언스 개요, 판다스(pandas)

  

* Keywords

#데이터프레임

#pandas

#numpy

 

 

* Today I Learned

* 행동강령(Code of Conduct)
   * 응원하기! 처음 배울 때는 누구나 어렵습니다. 
   * 어려운 선택을 하고 용기를 내서 배우기 시작한 여러분을 응원합니다!
   * 작은 성공에도 서로를 응원해주세요!
   * 우리는 출발점이 모두 다르기 때문에 다른 사람과 나를 비교하지 않습니다. 비교는 어제와 나와 오늘의 나를 비교합니다.
   * 의사소통에 있어서 예의 바르고 건설적인 태도를 늘 보여주세요.
   * 개인적인 인신공격이나 목소리를 올려 화내는 행동을 하지 마세요. 모든 사람은 공동체의 책임을 져야 하고, 서로에 대한 긴장을 완화하고 가능한 한 빨리 부정적인 맥락을 멈추기 위해 다 함께 노력해야 합니다.
   * 협력하고 함께 참여합시다. 우리는 서로에게 많은 것을 배울 수 있습니다. 지식을 공유하고 서로서로 도와주는 환경을 함께 만들어 주세요. 배우려는 동료에게 자신이 알고 있는 지식을 친절하게 알려주세요.
   * 직접 이야기하지 않고 텍스트만 봤을 때, 화자의 의도를 넘겨짚어 생각하지 않도록 합니다. 의문이 있는 경우 직접 물어볼 수 있도록 하고, 필요한 경우 상급자나 믿을 수 있는 제삼자의 도움을 적극적으로 요청하세요.
   * 피드백을 주고받을 때 기본예절을 지켜주세요. 공격적인 메시지를 전달하는 것을 금지합니다. 단어 선택에 신중하고, 경멸하는 명칭이나 인신공격성 단어 선택을 금지합니다.
   * 제삼자가 보기에 기분이 나쁜 코멘트를 볼 경우 옆에서 지적하길 권장합니다. 당사자는 코멘트를 듣는 입장에서는 지적하기 쉽지 않습니다. 지적을 들었을 때 발언자는 해당 지적을 악의적으로 받아들이는 대신 발언에 부적절한 부분이 있지는 않았는지 돌아보도록 합니다.
   * 자신의 의견이나 업무 결과물에 대한 평가를 자신에 대한 평가로 받아들이지 않는 동시에, 다른 사람의 의견이나 업무 결과물에 대해 말할 때도 최대한 인격적 비난으로 여겨질 수 있는 발언을 피하도록 노력해야 합니다.
   * 동료에 대한 부정적인 피드백이나 인신공격성 발언을 공개적으로 SNS에 올리는 일을 하지마세요. 그 대신, 사람이 아닌 문제가 됐다고 여겨지는 특정한 행동 방식에 대해서만 회고, 인싸타임 등을 통해 발전적으로 토론하는 방향으로 문제를 함께 해결하세요.
   * 서로의 장점을 인정하고 존중하기
      * (X) 잘 하는 사람이 많아서 위축되고 비교됩니다.
      * (O) 잘 하는 사람이 많아서 덕분에 배울 점이 많아보여요.
   * 긍정적인 단어로 소통하기(부정적인 감정은 나 뿐만 아니라 다른 사람까지 힘들게 합니다.)
      * (X) 저는 왜 이렇게 못 할까요? => 
      * (O) 내용이 어려운데 어떻게 하면 잘 배울 수 있을까요?
      * (X) 집중이 안 되고 어려워서 짜증이 납니다. =>
      * (O) 집중이 어려운데 어떻게 하면 잘 몰입할 수 있을까요?
      * (X) 어려워서 때려치고 싶어요. =>
      * (O) 내용이 어려워서 조금씩 천천히 해보고 싶어요. 누구에게 어떻게 도와달라고 해야 하나요?

 

최근 인공지능 이슈

AI가 그린 그림

- ai가 그린 그림은 수상 할 수 있는가? 

- api 가져와서 쓰면 모델 개발보다 훨씬 간편 -> 1줄 코드

- 대형 기업은 많은 데이터를 갖고 있음

- 초거대 모델이는 좋은 데이터를 넣어줘야하는데 그건 사람이 정해야 함 

    - 누드 -> nxde -> 인공지능이 과연? 사람이 전처리 해줘야함(요즘 트렌드 알아야 함)

뤼튼

- 카피라이팅(일정 키워드 입력하면 글 작성 해줌) 

 

-> 결국 데이터 전처리가 중요하다 

 

데이터사이언스 개요

- 콘웨이의 데이터 사이언스 밴다이어 그램

- 전체적인 지식이 필요 -> 다 알아야 하는가?

 

데이터분석을 할 때 JD를 봐도 파이썬, SQL 등의 역량을 요구 -> 어떨 때 SQL로 분석하고 어떨 때 Python으로 분석을 할까?

    - DB에서 데이터 가져올 때 SQL 사용 

    - 구축된 DB가 있을 때 SQL 사용하여 데이터 가져오고, 외부 데이터 활용이 필요하거나 기존 툴에 없는 분석을 할 때 Python 사용 

    -실시간으로 조회해야하는 데이터를 데이터베이스에 저장, 파이썬은 여러 도메인에 쓰일 수 있음

데이터베이스에는 어떤 데이터를 주로 저장할까요?

- 실시간 데이터(바로바로 읽어야 하는)

-

Python으로 다루는 데이터는 주로 파일로 저장이 된 데이터를 분석. 물론 Python으로 DB에 접근해 SQL을 다룰 수도 있고 Python에는 SQLite3라는 데이터베이스가 내장되어 있기로 함. 그러면 어떤 데이터를 파일로 저장할까?

- 데이터의 양이 대량일 때 파일 사용 

 

- 데이터베이스에는 주로 실시가능로 관리할 데이터를 저장

    -> 예) 회원정보, 장바구니 정보, 위시리스트, 게시판, 댓글, 캐릭터 정보, 인벤토리 정보, Status 관리가 필요한 정보

- 파일로 저장 할 때는 주로 로그데이터 등을 저장 

- 데이터베이스에도 로그성 데이터를 저장하기도 함. 한 시간에 1G 이상씩 쌓이는 로그성 데이터라면 보통 파일로 저장하는 편 

    -> 예) 어떤 페이지를 누가 언제 방문했었는지, 게임에서 서버에 접속해서 어떤 액션을 취했는지 작은 액션 단위로 로그를 저장하고자 할 때

-> 데이터분석가와 데이터엔지니어, 개발자, 기획자가 모여서 회의를 하면 어떤 데이터를 데이터베이스에 저장할지 어떤 데이터 파일로 저장할지 의견을 나누고 결정하고 어떤 데이터를 저장해서 관리할지 등을 결정하게 됨. 

 

탐색적데이터분석(Exploratory Data Analysis) 

- 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 ㅏ지고 있는 본연의 읨리를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료분석 방법을 개발 

- 대표적인 예로 박스플롯

 

데이터분석 사례

- 과거 사례 -> 존스노우의 콜레라 지도, 나이팅게일과 로즈 다이어그램, 코로나 발생 지도 

- 직방, 리치고(공공데이터 사용), 서울시 올빼미버스 

 

데이터 파이프라인 ETL, ELT

- 머신러닝과 딥러닝으로 인해 특히 변환(Transforn)부분에서 ETL, ELT 두 파이프라인의 필요성 증폭

- 빅데이터에서 가장 만은 시간이 소비되는 단계는 로드 단계이므로 변환을 수정해야 할 때 ELT 쪽이 더 높은 유연성 제

ETL

: 내외부의 다수의 데이터를 추출하고 이를 필요에 맞게 변환 후 저장하는 일련의 절차 

ELT

: 기존 ETL은 새로운 분석요건이 생기면 ETL의 Transformation 기능을 반드시 수정해야 가능한 구조 

 

ETL => 데이터 웨어하우스
ELT => 데이터 레이크

 

AI / ML / DL

앤비디아 블로그에 있는 이미지

 공공데이터

AI Hub

- AI 기술및 제품 서비스 개발에 필요한 AI인프라(AI데이터, AI SW API, 컴퓨터 지원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼 

공공데이터 포털

 

 

비정형데이터 -> AI Hub

정형데이터 -> 공공데이터 포털, 서울 열린데이터 광장, 통합데이터지도 

 

아나콘다 설치 이유

다른 언어로 만들어졌고 파이썬으로 구동하기 위해서는 해당 언어(예, JAVA, C, C++)를 실행할 수 있는 환경이 필요.
아나콘다로 접착제 언어의 특징을 갖는 라이브러리를 설치하게 되면 이런 복잡한 환경에서 구동하는 도구들을 비교적 오류 없이 설치해 주게 됨

 

데이터 프레임 - 2차원 배열로 된 구조, 서로 다른 데이터 타입을 칼럼으로 가질 수 있음

시리즈 - 모든 데이터 유형을 저장할 수 있는 1차원 배

 

* Homework

 

 

* Reference

 

 


* Retrospective

😍 Liked

새로운 강사님과의 수업 

refresh 되는 기분 

알아들을 수 있어서 수업이 더 재밌다

 

📚 Learned

데이터사이언스 개요

pandas / numpy

 

💦 Lacked

내일 데이터 수집 관련 내용이 걱정된다

 

🙏 Longed for

데이터 수집 관련 강의 듣기