삼성전자의 AI 모델 성능 평가지표 공개

허깅페이스에 공개된 트루벤치(TRUEBench) 사이트 메인 화면

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 공개했다.

‘트루벤치’는 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로, AI 모델의 업무 생산성 성능을 평가한다.

삼성전자는 많은 기업들이 업무 전반에 AI를 도입하고 있지만, 기존 벤치마크로는 AI 모델의 업무 생산성 성능을 정확히 측정하기 어렵다는 점에 주목했다.

‘트루벤치’는 기존 벤치마크와 달리 업무 생산성에 대해 집중 평가하는 것이 특징이다. 평가 항목은 10개 카테고리, 46개 업무, 2,485개으로 세분화되어 있다.

평가 항목은 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크 리스트를 기반으로 만들어졌다.

평가 결과도 기존 벤치마크와 차별화해, 사용자가 한 번에 최대 5개 AI 모델의 성능을 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 10개 카테고리에 대한 세부 항목별 점수도 평가하므로 기존 벤치마크보다 상세한 결과를 확인할 수 있다.

특히 생성한 답변의 성능 외에도 그 답변이 올바른지도 평가한다. AI 답변의 정확성뿐만 아니라 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가할 수 있다.

TAG

과학기술부