ورود / ثبت نام

سیستم جدید هوش‌مصنوعی سیگنال‌های مغز را با دقت ٪۹۷ به متن تبدیل می‌کند

تشخیص گفتار تقریباً شبیه به یک بازی کودکانه است: سیستم‌های هوش‌مصنوعی (AI) که می‌توانند فعالیت مغز ما را، بدون شنیدن حتی یک کلمه‌ که به زبان آورده شده باشد، به متن تبدیل‌کنند.

تشخیص گفتار تقریباً شبیه به یک بازی کودکانه است: سیستم‌های هوش‌مصنوعی (AI) که می‌توانند فعالیت مغز ما را، بدون شنیدن حتی یک کلمه‌ که به زبان آورده شده باشد، به متن تبدیل‌کنند.

این امر علمی تخیلی نیست. رابط‌های مغز- ماشین طی دهه‌های اخیر توسعه یافته و مدل‌های حیوانی تا شبه انسانی را در گستره‌ی خود قرار داده‌اند.

هنوز نه با دقت بسیار زیاد، اما محققان دانشگاه کالیفرنیا سانفرانسیسکو در یک مطالعه جدید در این مورد توضیح می‌دهند.

تیمی به سرپرستی جراح مغز و اعصاب ادوارد چانگ از آزمایشگاه چانگ UCSF از روشی جدید برای رمزگشایی الکتروکورتیکوگرام استفاده کردند: ثبت ضربان ‌الکتریکی توسط الکترودهای کاشته‌ شده در مغز که طی فعالیت قشر مغز اتفاق می‌افتند.

در این مطالعه، چهار بیمار مبتلا به صرع، ایمپلنت‌هایی را جهت کنترل تشنج ناشی از شرایط پزشکی خود به سر گذاشتند. تیم UCSF یک آزمایش جانبی را انجام داد: به صورتی که شرکت‌کنندگان، تعدادی جمله‌‌ی مشخص را، در حالی که الکترودها فعالیت مغزشان را طی آزمایش ثبت می‌کردند، با صدای بلند بخوانند و تکرار ‌کنند.

این داده‌ها سپس به یک شبکه عصبی که بر اساس رکورد‌های صوتیِ آزمایش، الگوی فعالیت مغز مربوط به مشخصه‌ی منحصر‌به‌فرد گفتاری خاص، مانند مصوت‌ها، صامت‌ها یا حرکات دهان را بررسی می‌کرد، داده شد.

پس از این، شبکه‌ی عصبی دیگری این بازنمایه‌ها (خروجی لایه‌های شبکه عصبی) را رمزگشایی کرد- که از تکرار ۳۰ تا ۵۰ جمله گفتاری جمع‌شده ‌است - و از آن استفاده نمود تا سعی کند آنچه ‌می‌خواهد گفته‌ شود را، صرفاً بر اساس اثر منحصر‌به‌فرد این کلمات برقشر، پیش‌بینی کند.

در بهترین حالت، این سیستم نرخ خطای کلمه‌ای (WER) معادل با فقط ۳ درصد در تبدیل سیگنال‌های مغز به متن از خود به جای می‌گذارد. حداقل در این شرایط آزمایشگاهی تعریف‌شده، ممکن است تقریباً به آنچه تا به امروز AI در ذهن‌خوانی افراد بدست‌آورده، نزدیک باشد.

در مقاله خود، این تیم تحقیقاتی نمونه‌های متعددی از جمله‌های مرجعی را که شرکت‌کنندگان این آزمایش گفته بودند، لیست کردند. این نمونه‌ها با "پیش‌بینی‌هایی" که شبکه-گاهی اوقات اشتباه، اما نه همیشه-تولید می‌کند، همراه بود. بعضی مواقع اشتباهات آشکار بود ، اما اگر این خطا ناشی از بد شنیدن گوش‌های انسان باشد، مساله بسیار متفاوت است (که می‌تواند اثری جانبی از مجموعه داده‌های محدود وارد‌شده به AI باشد).

نمونه‌هایی از اشتباهات عبارتند از: "the museum hires musicians every evening" که پیش‌بینی می‌شد "'the museum hires musicians every expensive morning".

در کم دقت‌ترین موارد، خطاها هیچ ارتباطی از نظر معنایی یا آوایی با آنچه گفته می‌شود ندارند: "she wore warm fleecy woollen overalls" که به صورت ''the oasis was a mirage'' ترجمه شد.

این تیم تحقیقاتی بیان می‌دارند: با وجود عجیب و غریب بودن خطاهای آشکار، در کل این سیستم ممکن است معیار جدیدی برای رمزگشایی فعالیت‌های مغزی مبتنی بر هوش‌ مصنوعی ایجاد کند و در بهترین حالت ممکن است با رونویسی حرفه‌ای گفتار انسان، که دارای WER برابر با ۵درصد است، قابل مقایسه باشد.

البته، رونویسان حرفه‌ای که با سخنرانان معمولی سروکار دارند، باید با ساختارهایی به گستره‌ی ده‌ها هزار کلمه دست و پنجه نرم کنند. در مقابل، این سیستم فقط اثر منحصر‌به‌فرد حدود ۲۵۰ کلمه‌ی متمایز روی قشر را که در مجموعه‌ی محدودی از جملات کوتاه استفاده شده بود، را باید می‌آموخت، بنابراین در واقع این مقایسه‌ای عادلانه نیست.

در‌حالی که بسیاری موانع برای غلبه وجود دارد، این تیم می‌گوید ممکن است روزی این سیستم به عنوان اساس عضو مصنوعی گفتار برای بیمارانی که توان صحبت‌کردن را از دست داده‌اند، عمل کند. اگر چنین چیزی امکان‌پذیر باشد، می‌تواند رخدادی بزرگ به حساب آید – تامین راهی برای برقراری ارتباطِ برخی افراد با جهان، که ممکن است بسیار فراتر از آنچه تاکنون آزمایش‌ها نشان داده‌اند، باشد.

یافته‌های این مطالعه در Nature Neuroscience چاپ شده ‌است.

منبع: sciencealert.com

دیدگاه ها

برای ثبت دیدگاه کافیست وارد حساب کاربری خود شوید.

خبرنامه آزمایشگاه ملی نقشه برداری مغز

با عضویت در خبرنامه آزمایشگاه ملی نقشه برداری مغز از آخرین اخبار و رویدادها مطلع شوید.

پرداخت هزینه آزمایشات دریافت گواهی پشتیبانی
صفحه اصلی
جستجو
دسته بندی
باشگاه
حساب کاربری