제가 생각한 핵심만 요약한 글입니다. 더 자세한 실험 결과나 레퍼런스는 paper를 참고 ※ Contribuition 1. Trained on only open source data 2. Smaller models trained longer with bigger tokens 3. Inference capable on a single GPU 1. INTRODUCTION 요약 근래에는 단순하게 more parameters will elad to better performance. 로 승부를 보는 추세였는데, (Training Compute-Optimal Large Language Models) 논문에 따르면 for a given budget , the best performances are not achie..