ایجنت‌های هوش مصنوعی کدنویسی امروزه تقریباً تمام آزمون‌های سنجش مهارت (بنچمارک‌ها) را که قبلاً برای آنها چالش‌برانگیز بود، با موفقیت پشت سر گذاشته‌اند؛ دستاوردی که چراغ سبز بزرگی برای سرمایه‌گذاران بود. اما پژوهش جدید محققان MIT روی بیش از ۱۰۰ هزار برنامه‌نویس، از یک شکاف بزرگ پرده برداشته است؛ اینکه ایجنت‌ها حجم کدهای نوشته‌شده را حدود ۱۸۰ درصد بیشتر کرده‌اند، اما میزان کدی که تأیید و در محیط عملیاتی منتشر شده (یعنی به دست کاربران رسیده)، تنها ۳۰ درصد رشد داشته است.

سرمایه‌گذاران خطرپذیر از اوایل سال ۲۰۲۴ و با معرفی ابزارهایی مانند Devin توسط شرکت Cognition، میلیاردها دلار به این بازار سرازیر کردند. Devin در ابتدا تنها می‌توانست ۱۳ درصد از مسائل آزمون استاندارد SWE-Bench را حل کند، اما بعد از ۱۸ ماه، بهترین ایجنت‌های هوش مصنوعی توانسته‌اند به امتیازهای بالای ۸۰ درصد در این آزمون برسند. این پیشرفت سریع، بسیاری از سرمایه‌گذاران را مطمئن کرده که دوران مهندسی نرم‌افزار به شکل سنتی روبه‌پایان است. با‌این‌حال، «سارا گو»، بنیان‌گذار شرکت سرمایه‌گذاری Conviction، معتقد است که فعالان بازار برداشت اشتباهی از این روند تکاملی داشته‌اند.

گو در این رابطه می‌گوید:

«تقریباً همه به این نتیجه غلط رسیده‌اند که هوش مصنوعی، مهندسی نرم‌افزار را تسخیر کرده است. اما واقعیت این است که مدل‌های هوش مصنوعی تنها بخشی از برنامه‌نویسی را بلعیده که اندازه‌گیری‌ آن راحت بوده. مهندسی نرم‌افزار همیشه در برابر اندازه‌گیری مقاومت کرده و بخش‌هایی که راحت‌تر اندازه‌گیری می‌شوند، لزوماً تنها بخش‌های مهم این فرایند نیستند.»

داده‌های محققان MIT دلیل این ماجرا را به‌خوبی روشن می‌کند. طبق این تحقیق، فهمیدن اینکه یک قطعه کد کار می‌کند یا نه، هزینه‌ای برای هوش مصنوعی ندارد. در این شرایط مدل یک کامپایلر یا خروجی را می‌پذیرد یا رد می‌کند، و یک مجموعه تست یا با موفقیت پاس می‌شود یا شکست می‌خورد. چون این فرایندِ سنجش رایگان و سریع است، مدل‌ها می‌توانند میلیون‌ها بار یک کار را تکرار کنند تا بالاخره برنده آزمون شوند.

اما به گفته این تحقیق چیزی که هوش مصنوعی نمی‌تواند به این سادگی و با هزینه کم آن را راستی‌آزمایی کند، این است که آیا تغییر ایجادشده، انتخاب درستی برای یک سیستم عملیاتیِ خاص و زنده است که ۱۰ سال از عمرش می‌گذرد؟ محققان می‌گویند پاسخ این سؤال را نمی‌توان از روی جدول امتیازات متوجه شد؛ بلکه قطعه کد جدید باید مدتی طولانی زیر بار ترافیک واقعی کاربران تست شود تا مشکلات آن مشخص شود؛ فرایندی زمان‌بر که هیچ بهبود و پیشرفتی در قابلیت‌های مدل هوش مصنوعی نمی‌تواند زمان آن را کوتاه‌تر کند.