سمانتیک اسکالر؛ موتور جستجوی پژوهشگران بر پایه هوش مصنوعی

به گزارش لی، فناوری سمانتیک اسکالر» (دانشنامه معنایی) پروژه و سرویس رایگانی است که توسط مؤسسه تحقیقاتی هوش مصنوعی آلن»

[۱] توسعه یافته است و در سال ۲۰۱۵ میلادی به طور رسمی و به رهبری یکی از بنیانگذاران شرکت مایکروسافت به نام پائول آلن» 

[۲]به عنوان اولین موتور جستجوی مبتنی بر هوش مصنوعی به منظور تسریع در فرایند تحقیقات علمی و در جهت تهیه مقالات نشریات علمی- تخصصی طراحی شده است تا خدمات خود را به طور رایگان در اختیار عموم پژوهشگران قرار دهد.

[۳]

[۴] این مؤسسه که از ترکیب مهندسان و پژوهشگران در شهر سیاتل آمریکا

[۵]تشکیل شده، تلاش می کند تا با دستیابی و ایجاد نظام های هوش مصنوعی به وسیله استدلال و درک فرایندهای منطقی، یادگیری، کسب تجربه و توانایی خواندن (درک مطلب) به پیشرفت های علمی دست یابد.

[۶]

پروژۀ سمانتیک اسکالر» ترکیبی از سیستم یادگیری ماشینی

[۷]، سیستم پردازش زبان طبیعی

[۸] و سیستم بینایی دستگاه (دیددستگاه)

[۹]  برای افزودن لایه تحلیل معنایی»

[۱۰] در قالب روش های سنتی تحلیل استنادی

[۱۱]، استخراج عناصر و اشکال وابسته، نام نهادها و اشخاص و در نهایت مکان رخداد یا همان محل نشر مقاله است.

[۱۲] ارزش این پروژه نوین که به نشانی اینترنتیwww.semanticscholar.org و یا https://allenai.org/semantic-scholar/ قابل دسترس است به هیچ عنوان با پروژه های پاب مد

[۱۳] و گوگل اسکالر

[۱۴] قابل قیاس نیست؛ در مقایسه با این دو پروژه کاربردی، سمانتیک اسکالر» از یک سو به منظور تعیین برجسته ترین، مهمترین و تأثیرگذارترین مقالات علمی- تحقیقاتی طراحی شده است و از سوی دیگر به شناسایی ارتباط بین این داده ها اقدام می کند. به بیانی ساده بهره برداری از پروژه هوش مصنوعی در استخراج داده ها به پژوهشگران سراسر جهان اجازه می دهد تا ایشان از میان میلیون ها مقاله علمی منتشر شده -در پایگاه های اطلاعاتی متعدد و شبکه جهانی اینترنت- به سرعت مقاله مورد نظر و مرتبط با موضوع خود را بیابند و نسبت به گلچین مهم ترین و تأثیرگذارترین ها اقدام کنند.

دکتر اورن

[۱۵] کارآفرین و متخصص علوم رایانه و مدیر عامل

[۱۶] همین شرکت، دلیل توانمندسازی سیستم های استخراج دانش به هوش مصنوعی را رشد انفجاری علم دانسته است. کاری که آقای اورن و همکارانشان انجام داده اند پاسخگوی نیازهای بالقوه و بالفعل یک پژوهشگر است؛ کدام مقالات مهم تر هستند؟ کدام یک از مقالات بیشترین کیفیت و اعتبار را دارند؟ آیا شخص دیگری بر روی مسئله مورد نظر کار کرده است؟ اینها پرسش هایی هستند که اکنون توسط هوش مصنوعی در چند ثانیه قابلیت پاسخ دادن دارند و در روند پژوهش های پژوهشگران تسریع ایجاد می کند و مسائل بزرگ را سریعتر حل و فصل می کند.  فرایند جستجوی سمانتیک اسکالر» از طریق خزیدن (ردیابی) و البته با بهره برداری از سیستم ماشین خوان

[۱۷] که یکی از سیستم های هوش مصنوعی برای درک متون

[۱۸] است و سیستم بینایی دستگاه (جستجوی بصری) در شبکه جهانی انجام می گردد و در این فرایند کلیه فایل های مقالات با فرمت پی.دی.اف که در شبکه در دسترس هستند را شناسایی و بازیابی کرده و به استخراج عناوین، متون، نمودارها و نمایه همه آنها برای بازیابی های متنی آتی اقدام می کند؛ در ادامه با استفاده از سیستم پردازش زبان طبیعی به شناسایی برترین مباحث موضوعی (برترین مقالات) می پردازد و پس از فیلترینگ و طبقه بندی اطلاعات و مباحث، به تفکیک اطلاعات بر اساس نوع مقاله و تعیین میزان تأثیرگذاری هر مقاله و استناد می پردازد. سامانه سمانتیک اسکالر» دارای رابط کاربری بسیار ساده

[۱۹] و بهینه شده برای کاربرد بر روی تلفن همراه

[۲۰] است تا انتظارات پژوهشگران را از یک سیستم پیشرفته فراهم سازد. به بیانی دیگر شالوده سمانتیک اسکالر» برای غلبه بر اضافه بار اطلاعاتی است که همواره پژوهشگران درگیر آن بوده اند تا زین پس برترین اطلاعات را به سرعت بیابند. مدیر عامل مؤسسه تحقیقاتی هوش مصنوعی آلن» معتقد است: این اولین گام هوش مصنوعی برای کمک به موتورهای جستجوگر است که قادر به اتصال نقطه های مطالعات متقابل به منظور شناسایی  فرضیه های جدید و ارائه پیشنهاد آزمایش هایی است که اگر هوش مصنوعی نبود از دست می رفت. وی هدف بهره برداری از هوش مصنوعی در فرایند جستجو را پاسخ به برخی از مشکل ترین مسائل علمی می داند. پژوهشگران می توانند مطالب مورد نظر خود را با استفاده از آی های پیش بینی شده در سمانتیک اسکالر» برای فیلترینگِ اطلاعات، پالایش اطلاعاتی کنند و دقیقاً آنچه را نیاز دارند در میان مطالب جستجو شده بیابند. فیلتر این جستجو ها به مانند دیگر پایگاه های اطلاعاتی معتبر شامل: سال انتشار، نوع مقالات، نویسندگان، مقالاتی که فایل پی.دی.اف

[۲۱] دارند، مقالات کامل، مقالات کنفرانس ها و نشریات علمی به تفکیک نشریات می شود. همچنین قابلیت مشاهده استنادها به هر یک از مقالات و تعیین مؤثرترین استنادها؛ مشاهده جداول، نمودارها، مراجع، منابع و همچنین مقالات مشابه و مرتبط به تفکیک وجود دارد. پژوهشگران توسط این سامانه قادر خواهند بود تا به ذخیره اطلاعات و در صورت نیاز در همین سامانه اقدام به نقل قول نویسی

[۲۲] کنند.

از مزایای دیگر این سیستم هوشمند، مشاهده مقالات استناد شده و شناسایی این موضوع است که چه قسمتی و چگونه بسیاری از محققانِ دیگر به یک مطلب یا مقاله ارجاع داده اند؛ این راه خوبی برای تعیین تأثیر سودمندی بیشتر برای مواقع ارجاع است. موضوع دیگر دستیابی منحصر به فرد پژوهشگر به ارقام، اشکال، جداول و یافته ها در یک فضای گرافیکی خاص است که اغلب پژوهشگران به دنبال آن هستند

[۲۳].

 از ماه ژانویه سال ۲۰۱۸ میلادی و پس از انجام پروژه ای که در سال ۲۰۱۷ میلادی به منظور افزودن مقالات زیست پزشکی

[۲۴] و خلاصه های موضوعی انجام شد، بیش از ۴۰ میلیون مقاله در حوزه علوم رایانه و زیست پزشکی به مجموعه اصلی سمانتیک اسکالر» افزوده شده است

[۲۵]؛  در ماه مارچ ۲۰۱۸ میلادی، داگ ریموند

[۲۶]، کسی که مبتکر توسعه برنامه های یادگیری ماشینی پلتفرم آمازون الکسا»

[۲۷]نیز بود به پروژه عظیم سمانتیک اسکالر» برای رهبری آن دعوت شد. 

[۲۸] باید دانست کسب دانش از منابع سازمان یافته و دارای ساختار و غیر ساختار یافته (متن، تصویر) از اهداف استخراج دانش

[۲۹] به ترتیب توسعۀ داده به اطلاعات، اطلاعات به دانش است و در دوره کنونی ضرورت وجود دانش در اشکالی شامل ماشین با قابلیت خوانش و ماشین با قابلیت تفسیر ضرورتی اجتناب ناپذیر است؛ بنابراین در دنیای کنونی انباشته شده از اطلاعات خرد و کلان، بی ارزش و ارزشمند، بایستی دانش را به گونه ای ارائه کرد که قابلیت تشریح داشته باشد؛ اگرچه ممکن است منظور همان سیستم استخراج اطلاعات از طریق پردازش زبان طبیعی باشد ولی در این طرح هدفِ استخراج اطلاعات فراتر از ایجاد اطلاعات ساختار یافته است؛ چرا که ابزارهای هوش مصنوعی جدید حتی قادر به استخراج دیدگاه ها از مجموعه های کوچک تری از اطلاعات هستند

[۳۰].

شاید بتوان گفت که دیدگاه افزودن ده ها میلیون عنوان مقاله در حوزه مطالعات زیست پزشکی در سامانه سمانتیک اسکالر» مربوط به داستان دل درد خانم ماری هاگمن

[۳۱] باشد. هاگمن به عنوان مدیر ارشد تولیدات هوش مصنوعی مؤسسه تحقیقاتی آلن نقش مهمی در شناخت ادغام اسناد موجود در پایگاه اطلاعاتی پابمد و دیگر پایگاه های زیست پزشکی به عنوان ابزاری برای جستجوهای آکادمیک ایفا کرد. وی به مدت پانزده سال و پیش از آنکه تجربه مهندسی نرم افزار در آلن را کسب کند، از دل درد و التهاب معده رنج می برد؛ پزشک متخصص برای وی نسخه ای از داروهای متعدد تجویز کرد و به هاگمن گفت: مجبور است تا برای بقیه عمر از این داروها استفاده کند. هاگمن می گوید: با دیدن این شرایط و با توجه به اینکه هنوز جوان بودم، تصمیم گرفتم که برای خودم کاری کنم؛ چون پزشکان نمی توانستند پاسخ درستی در مورد دل دردهای مکررم ارائه دهند؛ بنابر این در میان مطالب پزشکی و با رجوع به موتورهای جستجوگر به جستجو پرداختم و مطالعه ای را یافتم که در آن محققان به نوعی باکتری به نام هلیکوباکتر پیلوری

[۳۲]به عنوان یک علت بالقوه اشاره کرده بودند. هاگمن با این سطح از دانش، متخصص دیگری را متقاعد کرد تا آنتی بیوتیک هایی مربوط به این نوع باکتری تجویز کند. همان جستجو باعث درمان همیشگی هاگمن شد. پس از این ماجرا، همواره هدف وی کمک به پژوهشگران و حتّی عموم افراد است تا بتوانند مرتبط ترین مطالب علمی و پرسش های پزشکی را بیابند و به آنها پاسخ دهند. سرانجام با حمایت های پائول آلن، سمانتیک اسکالر» به عنوان ابزار ویژه ای برای جستجوی مطالعات علم رایانه در سال ۲۰۱۵ میلادی راه اندازی شد و در سال ۲۰۱۶ میلادی پایگاه داده آلن در حوزه تحقیقات علوم اعصاب نیزگسترش یافت. پس از آن هاگمن و همکارانش الگوریتم های جدیدی را برای گسترش اسناد از ۱۲ میلیون به ۴۰ میلیون ابداع و پیاده سازی کردند. هاگمن معتقد است که الگوریتم ها و ابزارهای موتورهای جستجوگر پیشرفته باید به گونه ای باشند که به تازه کارها به همان مقدار کمک کند که به پژوهشگرانِ متخصص کمک می کند. به طور مثال اگر واژه زخم معده

[۳۳]  را تایپ کنیم، زخم معده

[۳۴] ظاهر می شود که یک عبارت پزشکی تخصصی است ولی عموم مردم از آن درکی ندارند و موضوع همچنان برایشان ناشناخته باقی می ماند؛ هوش مصنوعی توانایی تفکیک خواسته ها دارد. نکته دیگر کاربرپسندی

[۳۵] هوش مصنوعی سمانتیک اسکالر» است که تمایز ویژه ای است که این سامانه نسبت به پابمد و گوگل اسکالر دارد. اما هدف رقابت با این ابزارها نیست؛ بلکه سمانتیک اسکالر» با شرکت گوگل، مایکروسافت، شرکت چینی بایدو

[۳۶] و تعدادی از معتبرترین شرکت های مرتبط با هوش مصنوعی همکاری دارد و هدف از این همکاری تسهیل در به اشتراک گذاری داده ها در یک سطح پایه است که از طریق آن منابع بیشتری برای ایجاد نوآوری اختصاص یابد

[۳۷].

نگارنده به متخصصان علوم زیست پزشکی سفارش می کند تا در پژوهش های خود از این ابزار بهره برداری کنند.

ترجمه و تألیف: مهدی لطفی پناه؛ کارشناس ارشد علوم کتابداری و اطلاع رسانی پزشکی دانشگاه علوم پزشکی تهران. مدیر اداره اطلاع رسانی و کتابخانه تخصصی پژوهشگاه رویان.


مشخصات

آخرین ارسال ها

آخرین وبلاگ ها

آخرین جستجو ها