مجید جویا: بیشتر ما با کامپیوتر خود حرف میزنیم، البته این حرف زدن صرفا محدود به لعنت فرستادن و ناسزاگفتن برای آن برای اشتباهی است که کل کار یک روز ما را خراب کرده است. ولی متاسفانه کامپیوتر به هیچ یک از حرفهای ما گوش نمیدهد، یا شاید بهتر است بگوییم گوش نمیداد، چرا نرم افزارهای جدید به نحوی طراحی میشوند که صحبت ما با کامپیوتر فایدهای هم برای ما داشته باشد.
قدیمیترین این نرمفزارها تشخیص اتوماتیک صحبت (ASR) است، که فناوری است که کلمات ما را به متن تبدیل میکند. بعدها شیوههای پیچیدهتری به آن اضافه شدند که فراتر از آنچه که میگفتید میرفتند، و نحوه گفتن آن را هم تحلیل میکردند. در این میان، آنها میتوانستند به ما کمک کنند تا در موقعیتهایی که ارتباط چهره به چهره امکان پذیر نبود، با کارایی بیشتری با دیگران ارتباط برقرار کنیم.
به گزارش نیوساینتیست، ایاسآر اولین بار در سال 1964 عرضه شد، هنگامی که شرکت کنندگان در نمایشگاه جهانی در نیویورک ابزاری را دیدند که جعبه IBM Shoebox نام گرفته بود، و تعدادی از محاسبات ساده ریاضی را در پاسخ به دستورهای گفتاری انجام میداد. با این وجود، دیری نپایید که امید مردم به کارامدی ایاسآر، به ناامیدی بدل شد.
سایمون تاکر از دانشگاه شفیلد در انگلستان میگوید: «جدیدترین مدلهای ایاسآر ضریب خطایی بین 30 تا 35 درصد دارند، و این خیلی آزار دهنده است». وقتی اوضاع بدتر میشود که به یاد بیاوریم که نواقص آن توسط تعداد زیادی از وبسایتها که برخی اشتباهات سرویس Google Voice را که ایمیلهای صوتی را به متن تبدیل میکند، به سخره میگیرند، برجستهتر هم شده است.
علاوه بر آن اینکه، حتی هنگامی که ایاسآر درست کار کند هم ممکن است نتایج رضایت بخش نباشند. درست به همان دلیل که خیلی وقتها خواندن دست خط افراد برای دیگران خیلی سخت است. افراد ممکن است در هنگام حرف زدن برخی عبارات را تکرار کنند، و یا حتی جمله را ناتمام بگذارند.
الکس پنتلند، که یک آزمایشگاه دینامیک انسانی در امآیتی را اداره میکند میگوید: «حتی اگر دقیقا همه چیزی که گفته شده را بنویسید، باز هم حالاتی وجود دارد که نمیتوانید بگویید که در مورد چه چیزی صحبت میشد. استفاده مردم از زبان محاورهای، خیلی غیر مستقیم و غیر رسمی است».
به گفته تاکر بر خلاف این محدودیتها، ایاسآر کاربردهای خود را دارد. او با داشتن همکارانی در دانشگاه شفیلد و همچنین استیو ویتاکر در پژوهشگاه آیبیام در آلمادان کالیفرنیا، سیستمی را طراحی کرده که Catchup نام دارد و به این منظور طراحی شده که تقریبا به طور همزمان، هر چیزی را که در یک جلسه کاری گفته میشود خلاصه کند، و به این ترتیب کسانی که دیر میرسند میتوانند بفهمند در غیاب آنها در جلسه چه گذشته است. کچاپ همچنین میتواند کلمات و عبارات مهم در یک متن ایاسآر را تشخیص دهد و موارد بیاهمیت را هم حذف کند. سیستم این کار را با استفاده از فرکانس صدا انجام میدهد که نشان دهنده اهمیت خود کلمه است، و البته لیستی از کلمات پر کاربرد معمولی دارد که آنها را در خروجی خود حذف میکند. این سیستم به این ترتیب لیستی از کلمات مهم بیان شده در جلسه را در محتوای خروجی خود نگه میدارد و باقی را حذف میکند.
یک ویژگی کلیدی کچاپ این است که نتایج را به صورت صوتی ارائه میکند، در نتیجه کسی که دیر آمده میتواند به جای خواندن یک متن، خلاصه صوتی از محتوای جلسه را بشنود. تاکر عقیده دارد که «این تجربه خیلی بهتری در اختیار کاربر قرار میدهد».
سازندگان کچاپ در جریان آزمایشهای خود بر روی آن، گزارش کردند که تقریبا در 80 درصد موارد، افراد توانستند خلاصههای تهیه شده توسط سیستم را درک کنند، حتی اگر مربوط به بازه زمانی کمتر از نیمی از زمان کل مکالمات بود. درصد مشابهی از شرکت کنندگان هم گفتند که به این ترتیب دید بهتری در مورد بخشی از جلسه که در آن حضور نداشتند پیدا میکردند تا ینکه بخواهند با گوش کردن به بقیه مذاکرات بفهمند که در غیاب آنها چه گذشته است.
یک مزیت خلاصه صوتی به نسبت خلاصه متنی، این است که بخشی از سیگنالهای اجتماعی نهفته در کلام را حفظ میکند. یک خلاصه متنی شاید نشان دهد که یک فرد چه حرفهایی زده است، ولی نمیتواند شک و تردید را در کلام او تشخیص دهد. استیو رینالز، یک کارشناس فناوری مکالمه در دانشگاه ادینبورگ در انگلستان، و یکی از سازندگان فناوری ایاسآر به کار رفته در کچاپ عقیده دارد که این سیگنالها «شاید از خود آنچه که گفته شده هم مهمتر باشند».
البته یک گزارش صوتی هرگز نمیتواند سیگنالهای اجتماعی را که در مکالمه چهره به چهره وجود دارد درک کند، (برای مثال یک گوشه ابرو، یا یک سر تکان دادن) و از آنجا که جلسات هر روز بیش از روز قبل به صورت تلفنی و یا آنلاین برگزار میشوند، کسانی که به این ترتیب در جلسات شرکت میکنند از این معضل رنج میبرند. در نتیجه پنتلند و همکران وی در امآیتی شیوه سخن گفتن افراد مختلف را بررسی کردند، و از نتایج آن برای پر کدن این شکاف استفاد کردند. به ادعای او این نوع از تحلیل مکالمات میتواند کیفیت تماسهای کنفرانس تلفنی را به این ترتیب بهتر کند و به شرکت کنندگان در این جلسات از راه دور کمک کند تا این سیگنالهای اجتماعی را بهتر دریافت کنند.
کار پنتلند در این حوزه بر مبنای چندین سال از تحقیق بر روی سیگنالهای غیر صوتی است که در الگوهای صوتی نهفتهاند. برای مثال این تحقیقات آشکار کردهاند که رابطهای وجود دارد بین این که چگونه یک نفر جذب چیزی میشود که بیان شده است و این که چقدراین حرف با صدای بلند گفته شده است، و یا با فرکانسی که با آن آنها از حرف زدن به گوش کردن تغییر حالت میدهند.
پرتلند که با یک دانشجوی دکترا به نام تیمی کیم کار میکرد شروع به استفاده از برخی از این یافتهها کرد تا ابزاری بسازد که سیگنالهای اجتماعی را در جلسات از راه دور تقویت کند. «گرداننده جلسات» آنها، میزان زمانی را که چهار نفر که در دو مکان جداگانه در یک کنفرانس صوتی شرکت دارند، صرف حرف زدن میکنند، اندازه گیری میکند. اگر یکی از آنها زمان جلسه را به خود اختصاص میداد و بیش از بقیه حرف میزند، باقی افراد میتوانستند آن را در یک نمودار گرافیکی که در مقابل آنها قرار دارد ببینند.
کیم و پنتلند دریافتند که این امر تاثیر زیادی روی رفتار شرکت کنندگان میگذاشت. زمان متوسط بخش سخنرانی (که زمانی است که یک نفر قبل از دادن وقت خود به دیگران حرف میزند) از 11.2 ثانیه به 9.2 ثانیه افت کرد.
سیستم همچنین شرکت کنندگان را از گروه گروه شدن و شروع مکالمات جداگانه با افارد درون گروه خود بر حذر میداشت. کیم میگوید: «بازخورد به این منظور طراحی شده بود تا شرکت کنندگان را به تعادل و تعامل ترغیب کند». به گفته او تنها «جلوی چشم» داشتن این آمار به آنها کمک کرد تا به این هدف برسند. با بسط و گسترش چنین سیستمهایی و نمایش سطح علاقه شرکت کنندگان روی نمایشگر، شرکت کنندگان در یک جلسه تلفنی میتوانند احساس بهتری از سیگنالهای اجتماعی که تا کنون نمیتوانستند دریافت کنند داشته باشند.
به گفته پنتلند، چنین ابزارهایی که کاری بیشتر از تنها تشخیص کلمات انجام میدهند، به ارتقای سطح کنفرانسهای تلفنی کمک خواهند کرد. او میگوید: «خواندن «افراد» به جای خواندن «کلمات»، میتواند قاعده بازی را در ارتباطات تغییر دهد».
نظر شما