bang-js/KMR_22

ESG controversises and stock market returns: using a natural language processing

Jupyter Notebook

KMR_22

[Korean Management Review, 2022] ESG controversises and stock market returns: Using a natural language processing [경영학연구] ESG 논란과 주식 수익률: 자연어 처리의 활용 DOI: doi.org/10.17287/kmr.2022.51.6.1739

bigkinds_scrap

1차 부정 단어와 ESG 논란 관련 단어 통합
selenium을 사용하여 BIGKINDS에서 각 주식 종목에 대하여 해당 단어 모음을 자동으로 검색하고 결과를 엑셀 파일로 다운로드
다운로드된 엑셀 파일명을 일괄적으로 변경

preprocess

부정 단어 모음, 긍정 및 무의미 단어 모음 정리
지주사(홀딩스) 및 보편적 단어가 기업명에 포함되는 경우 제외
종목들의 기사 제목들을 병합한 데이터프레임에서 기사 제목 중복 시 삭제하고, 제목에 부정단어가 2번 있는지, 제목에 긍정 및 무의미 단어가 있는지 확인
기사 제목 데이터를 엑셀 파일로 저장

BERT_ESG_ctrv

라벨된 데이터를 KoBERT로 학습
preprocess.py에서 언급된 과정을 거친 뉴스기사를 학습된 KoBERT를 사용하여 자동분류

stock_CAR

주어진 기업의 ESG 논란 뉴스 보도 근처의 주가수익률을 pykrx 데이터로부터 계산
AR(abnormal returns)과 CAR(cumulative abnormal returns)를 계산

overlap

비슷한 기사가 근접한 시기에 중복되어 보도되는 경우를 제어하기 위함
전후 10일 동안 같은 기업의 같은 소분류에 속하는 기사는 제외
동일한 window에 여러 소분류 기사가 보도된 경우 대표적인 기사 외에는 제거

announce

DART에 공시된 정기 보고서의 접수 일자를 스크랩핑
정기보고 전후 10일 사이에 보도된 기사는 교란효과 방지 위해 제외

t_test

뉴스별 CAR t-test

regression

VIF test
CAR를 종속변수로 기사 중복횟수와 기업요인을 설명변수로 하는 회귀분석