আমরা LLM এবং এজেন্টিক অ্যাপ্লিকেশনগুলির জন্য কঠোর পরীক্ষা তৈরি করছি। 'আমি আশা করি এটি কাজ করে' থেকে 'আমি জানি এটি কাজ করে।'