AI SCHOOL/Python 18

[Python] 네이버 금융 ETF 수집, json 데이터 수집

1) 수집하고자 하는 데이터가 어떤 태그에 들어있는지 확인 -> table 태그라면 pd.read_html()로 불러올 수 있고 2) pd.read_html()로 수집이 안 된다면 requests로 요청을 보냄 -> requests 요청을 보내기 위한 주소를 Network 메뉴에서 찾는다. url => preview로 봤을 때 해당 데이터가 있는지 확인 etf 는 없는 상태 -> js나 xhr 확인 ETF란? ETF(상장지수펀드)는 기초지수의 성과를 추적하는 것이 목표인 인덱스펀드로, 거래소에 상장되어 있어서 개별주식과 마찬가지로 기존의 주식계좌를 통해 거래를 할 수 있습니다. 그 구성종목과 수량 등 자산구성내역(PDF)이 투명하게 공개되어 있고, 장중에는 실시간으로 순자산가치(NAV)가 제공되어 거래에..

AI SCHOOL/Python 2023.01.24

[Python] 다산콜센터 주요 민원 내용 수집(2)

다산콜센터 (1)이랑 다른점은 (2)는 작성자- 이런 것에 내용을 붙임 # 필요한 라이브러리들을 불러옵니다. # pandas : 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구입니다. # requests : 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러옵니다. # BeautifulSoup : request로 가져온 웹사이트의 html 태그를 찾기 위해 사용합니다. # time : 한 번에 많은 양의 데이터를 가져오게 되면 서버에서 부담을주기 때문에 시간 간격을 두고 가져오기 위해 사용합니다. import time import pandas as pd import numpy as np import requests from bs4 import BeautifulSoup as bs # 수집해온 파일..

AI SCHOOL/Python 2023.01.24

[Python] 대통령연설기록 수집 - 2 (연설 내 가져오기)

import time import requests from bs4 import BeautifulSoup as bs import pandas as pd requests.packages.urllib3.disable_warnings(requests.packages.urllib3.exceptions.InsecureRequestWarning) 수집한 연설 목록 가져오기 df = pd.read_csv("대통령연설기록_강사님.csv") df.shape df.head() url 만들기 base_url = "https://www.pa.go.kr/research/contents/speech/index.jsp" sub_url = df.iloc[-2]["내용링크"] print(df.iloc[-2]["제목"]) print(ba..

AI SCHOOL/Python 2023.01.22

[Python] 다산콜센터 주요 민원 목록 수집(1)

서울특별시 다산콜센터(☎120)의 주요 민원¶ 서울특별시 다산콜센터(☎120)의 주요 민원(자주 묻는 질문)에 대한 답변정보 https://opengov.seoul.go.kr/civilappeal/list In [2]: # pandas : 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구 # numpy : 파이썬에서 사용할 수 있는 공학용 계산기 # requests : 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러옴 # BeautifulSoup : requests로 가져온 웹사이트의 html 태그를 찾기위해 사용 # time : 간격을 두고 가져오기 위해 사용 import time import pandas as pd import numpy as np import requests from bs..

AI SCHOOL/Python 2023.01.19

[Python] 대통령연설기록 수집 - 1

연설문 목록 스크래핑 수집하고자 하는 대상의 URL 을 알아봅니다. 사이트에 접속한다. => HTTP 요청을 보냅니다. requests 목록을 받아온다. (번호, 대통령, 형태, 유형, 제목, 연설일자) + BautifulSoup을 통해 내용의 링크도 함께 수집 3번을 반복해서 전체 데이터를 수집한다. 파일로 저장한다. 연설문 목록에 URL 추가 0105에서 저장한 대통령 연설문 목록을 가져옵니다. 내용링크를 통해 각 연설문의 내용 링크에 요청을 보냅니다. BeautifulSoup을 통해 내용을 찾아옵니다. 내용의 링크를 통해 내용을 찾는 함수를 만듭니다. 전체 게시물에 내용을 찾는 함수를 적용합니다. => 반복문을 사용하지 않고 Pandas 의 map, apply 등의 기능을 사용할 예정입니다. 수집이..

AI SCHOOL/Python 2023.01.17

[Python] 네이버 금융 뉴스기사 수집

목표 : pandas 의 read_html 을 통해서 테이블 형태의 표를 수집하는 방법을 알아봅니다. 1. 개별 종목에 대한 뉴스 기사를 수집합니다. 2. 한 페이지만 수집 3. 여러 페이지를 수집해서 하나로 병합합니다. 4파일형태로 저장합니다. import pandas as pd url_1 = 'https://finance.naver.com/item/news.naver?code=005930' temp_table = pd.read_html(url_1, encoding="cp949") temp_table[1] 우선 네이버 금융 뉴스 기사 url 을 불러온 뒤 pd.read_html을 통해 데이터 프레임으로 불러온다 pd.read_html로 확인할 수 있다는 것을 확인하고 제대로 스크랩핑을 한다 수집하려는 ..

AI SCHOOL/Python 2023.01.15

[Python] FinanceDataReader

FinanceDataReader? - 한국 주식 가격, 미국주식 가격, 지수, 환율, 암호화폐 가격, 종목 리스팅 등 금융 데이터 수집 라이브러리 # 설치 !pip install -U finance-datareader # 라이브러리 불러오기 import pandas as pd import FinanceDataReader as fdr fdr.__version__ #버전확인 - KRX : KRX 종목 전체 - KOSPI : KOSPI 종목 - KOSDAQ : KOSDAQ 종목 - KONEX : KONEX 종목 - NASDAQ : 나스닥 종목 - NYSE : 뉴욕증권거래소 종목 - SP500 : S&P500 종목 한국거래소 상장종목 전체 가져오기 df = fdr.StockListing("KRX") df +) ..

AI SCHOOL/Python 2023.01.12

[Python] pandas 기초

• Pandas # 필요한 라이브러리를 로드 # pandas, numpy를 불러온다 import pandas as pd import numpy as np df["약품명"] = ["소화제", "감기약", "비타민", "digestive", "Omega3", "오메가3", "vitamin", "Vitamin"] df["가격"] = 3500 type(df['가격'])은 시리즈 type(df) 는 DataFrame type(np.nan)은 float 삭제 axis = 0 -> 행 axis = 1 -> 칼럼 df["종류2"] = "전문의약품" df = df.drop(labels="종류2", axis=1) df 데이터 요약 df.info() -> 데이터 프레임의 정보 df.shape -> 데이터 프레임의 크기 출력..

AI SCHOOL/Python 2023.01.12