ایجنتهای هوش مصنوعی کدنویسی امروزه تقریباً تمام آزمونهای سنجش مهارت (بنچمارکها) را که قبلاً برای آنها چالشبرانگیز بود، با موفقیت پشت سر گذاشتهاند؛ دستاوردی که چراغ سبز بزرگی برای سرمایهگذاران بود. اما پژوهش جدید محققان MIT روی بیش از ۱۰۰ هزار برنامهنویس، از یک شکاف بزرگ پرده برداشته است؛ اینکه ایجنتها حجم کدهای نوشتهشده را حدود ۱۸۰ درصد بیشتر کردهاند، اما میزان کدی که تأیید و در محیط عملیاتی منتشر شده (یعنی به دست کاربران رسیده)، تنها ۳۰ درصد رشد داشته است.
سرمایهگذاران خطرپذیر از اوایل سال ۲۰۲۴ و با معرفی ابزارهایی مانند Devin توسط شرکت Cognition، میلیاردها دلار به این بازار سرازیر کردند. Devin در ابتدا تنها میتوانست ۱۳ درصد از مسائل آزمون استاندارد SWE-Bench را حل کند، اما بعد از ۱۸ ماه، بهترین ایجنتهای هوش مصنوعی توانستهاند به امتیازهای بالای ۸۰ درصد در این آزمون برسند. این پیشرفت سریع، بسیاری از سرمایهگذاران را مطمئن کرده که دوران مهندسی نرمافزار به شکل سنتی روبهپایان است. بااینحال، «سارا گو»، بنیانگذار شرکت سرمایهگذاری Conviction، معتقد است که فعالان بازار برداشت اشتباهی از این روند تکاملی داشتهاند.
گو در این رابطه میگوید:
«تقریباً همه به این نتیجه غلط رسیدهاند که هوش مصنوعی، مهندسی نرمافزار را تسخیر کرده است. اما واقعیت این است که مدلهای هوش مصنوعی تنها بخشی از برنامهنویسی را بلعیده که اندازهگیری آن راحت بوده. مهندسی نرمافزار همیشه در برابر اندازهگیری مقاومت کرده و بخشهایی که راحتتر اندازهگیری میشوند، لزوماً تنها بخشهای مهم این فرایند نیستند.»
دادههای محققان MIT دلیل این ماجرا را بهخوبی روشن میکند. طبق این تحقیق، فهمیدن اینکه یک قطعه کد کار میکند یا نه، هزینهای برای هوش مصنوعی ندارد. در این شرایط مدل یک کامپایلر یا خروجی را میپذیرد یا رد میکند، و یک مجموعه تست یا با موفقیت پاس میشود یا شکست میخورد. چون این فرایندِ سنجش رایگان و سریع است، مدلها میتوانند میلیونها بار یک کار را تکرار کنند تا بالاخره برنده آزمون شوند.

اما به گفته این تحقیق چیزی که هوش مصنوعی نمیتواند به این سادگی و با هزینه کم آن را راستیآزمایی کند، این است که آیا تغییر ایجادشده، انتخاب درستی برای یک سیستم عملیاتیِ خاص و زنده است که ۱۰ سال از عمرش میگذرد؟ محققان میگویند پاسخ این سؤال را نمیتوان از روی جدول امتیازات متوجه شد؛ بلکه قطعه کد جدید باید مدتی طولانی زیر بار ترافیک واقعی کاربران تست شود تا مشکلات آن مشخص شود؛ فرایندی زمانبر که هیچ بهبود و پیشرفتی در قابلیتهای مدل هوش مصنوعی نمیتواند زمان آن را کوتاهتر کند.