رشته تجارت الکترونیک چارچوبی جدید برای تشخیص مرجع مشترک و اسم اشاره در متون پارسی |
و بیان مسئله
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون[3]، برچسبگذاری ادات سخن[4]، تعیین و ابهامزدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامی این حوزههای جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار[8] و … ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
چارچوب کلی این پایان نامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایان نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشارههای ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد كارهای آتی در ادامهی این پژوهش خواهیم پرداخت.
1-2.بررسی ارتباط هم مرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرایند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید[34]:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشهی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در
خرید فایل متن کامل این پایان نامه :
(شرکت آبیاری لاله)۳ است.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، میتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرایندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرایند میباشد.
[1] معادل پارسی عبارت انگلیسی Natural Language processing
[2] معادل پارسی عبارت انگلیسی Artificial Intelligence
[3] معادل پارسی عبارت انگلیسی Text classification
[4] معادل پارسی عبارت انگلیسی Part of speech tagging
[5] معادل پارسی عبارت انگلیسی Word sense disambiguation
[6] معادل پارسی عبارت انگلیسی Micro-task
[7] معادل پارسی عبارت انگلیسی Macro-task
[8] معادل پارسی عبارت انگیسی Named Entity Recognizers(NER)
[9] معادل پارسی عبارت انگیسی Spam Detection
[10] معادل پارسی عبارت انگیسی Information Extraction(IE)
[11] معادل پارسی عبارت انگیسی Coreference Resolution(CR)
[12] معادل پارسی عبارت انگیسی Machin Translation(MT)
[13] معادل پارسی واژه انگیسی Lexical
[14] معادل پارسی واژه انگیسی Syntactical
[15] معادل پارسی واژه انگیسی Parsing
[16] معادل پارسی واژه انگیسی Classification
[17] معادل پارسی واژه انگلیسی Clustering
[18] معادل پارسی عبارت انگلیسی Association pules
[19] معادل پارسی واژه انگلیسی Entity
[20] معادل پارسی عبارت انگلیسی Information Retrieval(IR)
[21] معادل پارسی عبارت اانگلیسی Data Mining
[22] معادل پارسی عبارت انگلیسی question/Answering
[23] معادل پارسی عبارت انگلیسی Text understanding
[24] معادل پارسی عبارت انگلیسی Mention Detection
[25] معادل پارسی واژه انگلیسی linguist
[26] معادل پارسی عبارت انگلیسی Machin Learning(ML)
[27] معادل پارسی واژه انگلیسی Corpus
[28] معادل پارسی واژه انگلیسی Entitiy
[29] هرآنچه كه به موجودیت خاص درمتن ارجاع داده شده است
[30] معادل پارسی واژه انگلیسی Pronominal
[31] معادل پارسی عبارت انگلیسی Proper Name
[32] معادل پارسی واژه انگلیسی Nominal
[33] معادل پارسی عبارت انگلیسی Out of Mention
[35] معادل پارسی عبارت انگلیسی Automatic Content Extraction
فرم در حال بارگذاری ...
[شنبه 1400-05-09] [ 07:37:00 ب.ظ ]
|