[Korean Management Review, 2022] ESG controversises and stock market returns: Using a natural language processing [경영학연구] ESG 논란과 주식 수익률: 자연어 처리의 활용 DOI: doi.org/10.17287/kmr.2022.51.6.1739
- 1차 부정 단어와 ESG 논란 관련 단어 통합
- selenium을 사용하여 BIGKINDS에서 각 주식 종목에 대하여 해당 단어 모음을 자동으로 검색하고 결과를 엑셀 파일로 다운로드
- 다운로드된 엑셀 파일명을 일괄적으로 변경
- 부정 단어 모음, 긍정 및 무의미 단어 모음 정리
- 지주사(홀딩스) 및 보편적 단어가 기업명에 포함되는 경우 제외
- 종목들의 기사 제목들을 병합한 데이터프레임에서 기사 제목 중복 시 삭제하고, 제목에 부정단어가 2번 있는지, 제목에 긍정 및 무의미 단어가 있는지 확인
- 기사 제목 데이터를 엑셀 파일로 저장
- 라벨된 데이터를 KoBERT로 학습
- preprocess.py에서 언급된 과정을 거친 뉴스기사를 학습된 KoBERT를 사용하여 자동분류
- 주어진 기업의 ESG 논란 뉴스 보도 근처의 주가수익률을 pykrx 데이터로부터 계산
- AR(abnormal returns)과 CAR(cumulative abnormal returns)를 계산
- 비슷한 기사가 근접한 시기에 중복되어 보도되는 경우를 제어하기 위함
- 전후 10일 동안 같은 기업의 같은 소분류에 속하는 기사는 제외
- 동일한 window에 여러 소분류 기사가 보도된 경우 대표적인 기사 외에는 제거
- DART에 공시된 정기 보고서의 접수 일자를 스크랩핑
- 정기보고 전후 10일 사이에 보도된 기사는 교란효과 방지 위해 제외
- 뉴스별 CAR t-test
- VIF test
- CAR를 종속변수로 기사 중복횟수와 기업요인을 설명변수로 하는 회귀분석