최근 TurboQuant 양자화에 대한 기사가 종종 올라옵니다. 메모리 반감 이슈 때문에 많은 관심을 쏟고 있는데요.저는 보면서, 이게 그렇게 메모리 자체에 대한 사용을 줄일 수 있는가에 집중을 해서 논문을 다시 한번 읽어 보았습니다. 일단 TurboQuant 양자화의 경우는 현재, 모델 Quantization에는 적용되어 테스트 하지 않은 것으로 보입니다. 어 이거 기존 AGQ, GPTQ 같은 거 아닌가 생각하신 분들에게는 좀 생소할 수 있는데, 논문에서 나온 부분은 KV Cache에 대한 부분과 Embedding Vector에 대한 부분만을 중점으로 다루고 있습니다. 모델 Qunatization은 예전부터 많이 수행해 오고 있으며, 실제로 사내 모델을 활용할 때에는 적용을 이미 하고 있습니다...