مایکروسافت اخیراً مدل زبان جدیدی به نام Phi-1 را معرفی کرده است. این مدل با استفاده از تعداد کمی پارامتر ورودی، عملکرد بهتری نسبت به GPT-3.5 ارائه میدهد.
مدل زبان جدید Phi-1 از مایکروسافت دارای 1.3 میلیارد پارامتر بوده و پیشرفت قابل توجهی در عملکرد داشته است. علیرغم این که تصویر عمومی این است که مدلهای بزرگتر عملکرد بهتری دارند، اما Phi-1 با تمرکز بر کیفیت دادههای آموزشی به عنوان رویکرد غول فناوری، نتایج قابل قبولی را به ارمغان آورده است. مدل Phi-1 با استفاده از مجموعهای از دادههای کتابهای درسی با دقت بالا آموزش دیده است و نسبت به مدل GPT-3.5 با 100 میلیارد پارامتر، عملکرد بهتری دارد.
مایکروسافت مدل زبان Phi-1 را بر اساس معماری ترانسفورمر ساخته است و به دلیل عملکرد چشمگیر آن، توجهات زیادی را به خود جلب کرده است. تیم سازنده این مدل بر کیفیت دادههای آموزشی تأکید دارد و فرآیند آموزش آن با استفاده از 8 پردازنده گرافیکی Nvidia A100 و فقط در چهار روز تکمیل شده است.
براساس گزارشی از گیزموچاینا، مایکروسافت با تمرکز بر بهبود کیفیت دادههای آموزشی به جای افزایش تعداد پارامترها، نتایج قابل قبولی را به همراه داشته است. دقت مدل Phi-1 در آزمایشهای مقایسهای به امتیاز 50.6 درصد رسیده است که بهتر از عملکرد 47 درصدی مدل GPT-3.5 با 175 میلیارد پارامتر است.
مایکروسافت قصد دارد Phi-1 را به صورت منبعباز منتشر کند تا قابلیت دسترسی و مشارکت افراد در توسعه آن بهبود یابد. این اقدام، تعهد شرکت در پیشرفت در حوزه پردازش زبان طبیعی را نشان میدهد. این اولین بار نیست که مایکروسافت یک مدل زبان کوچکتر را توسعه میدهد، زیرا پیش از این نیز مدل Orca با 13 میلیارد پارامتر بر اساس GPT-4 و با استفاده از دادههای مصنوعی آموزش داده شده بود. حتی Orca نیز ثابت کرد که از ChatGPT بهتر عمل میکند. مقاله تحقیقاتی مربوط به مدل Phi-1 در arXiv منتشر شده است و جزئیات دقیقی درباره معماری و روش آموزش این مدل هوش مصنوعی را ارائه میدهد.
نظرات کاربران