언어 기반 로봇 작업 계획과 제어 기술은 자연어 명령을 이해하고 다양한 환경에서 복잡한 작업을 수행할 수 있게 하는 핵심 기술로서 최근 대형언어모델(LLM)과 비전-언어 모델(VLM)의 발전에 힘입어 활발히 연구되고 있다. 이 기술의 발전을 위해서는 로봇의 실세계 이해와 작업 계획 수립 능력 그리고 사물 조작 능력을 체계적이고 객관적으로 평가할 수 있는 벤치마크가 필수적이다. 본 고에서는 언어 기반 실세계 상황이해, 작업 계획 수립, 조작 제어 기술의 학습과 평가에 활용되는 주요 벤치마크들을 소개한다. 이들 벤치마크는 실제 혹은 시뮬레이션 환경에서 수집한 대규모 데이터와 다양한 작업 시나리오를 제공하며 로봇의 실세계 작업 수행 능력을 실질적으로 평가할 수 있게 한다. 향후 보다 현실적이고 도전적인 작업을 포함하는 벤치마크의 개발과 함께 최신 인공지능 기술을 로봇 제어에 활용하는 연구가 활발해질 것으로 전망된다.