پایان نامه با کلید واژه های منابع محدود، زبان مقصد

پروژه تصحيح شده‌اند. آنها ابتدا اينگونه متون را از وب جمع آوري کرده، سپس بصورت خودکار درسطح جمله همتراز کردند. روش استفاده شده براي همترازي جملات آنها، روش استفاده شده در کار يوتياما و آيساهارا [32] بود. شباهت بين دو جمله بر مبناي تعداد کلمات مشترک (تعداد کلماتي از دو جمله که ترجمه يکديگر هستند) در نظر گرفته شد، که براي به دست آوردن اين شباهت از يک فرهنگ لغت دوزبانه با بيش از 450 هزار مدخل استفاده کردند. در نهايت پيکره‌اي موازي با نزديک به 500 هزار جفت جمله ساختند. آنها آزمايشاتشان را با ماشين ترجمه آماري موزز انجام دادند و نشان دادند که پيکره‌شان براي ترجمه ماشيني آماري مفيد است.
در بالا چندين مثال از کارهاي انجام شده توسط رويکرد ساخت پيکره موازي با استفاده از متوني که همراه با ترجمه هستند آمد. اکثر متون دوزبانه يافت شده اغلب ترجمه دقيق هم نيستند و بنابراين همترازي آنها آسان نيست. در اين رويکردها دو مشکل عمده وجود دارد؛ اول اينکه دسترسي بسيار کمي به متوني که همراه با ترجمه باشند وجود دارد چرا که اينگونه متون کم بوده و در صورت وجود نيز کمتر بصورت رايگان در اختيار عموم قرار ميگيرند. دومين مسئله نيز اين است که اينگونه منابع اغلب مربوط به يک دامنه خاص مي‌شوند و در نتيجه پيکره‌هاي ساخته شده از روي اين منابع دامنه محدودي دارند. لازم به ذکر است که اين مشکلات براي جفت زبان فارسي-انگليسي بسيار جدي‌تر است زيرا زبان فارسي به مراتب منابع ترجمه شده کمتري نسبت به زبان‌هاي اروپايي، چيني و عربي دارد.
کارهاي اخير در حوزه ساخت پيکره‌هاي موازي، بر استخراج جملات موازي از روي متون دوزبانه تمرکز دارند؛ که يا از وب به عنوان منبع جملات شبه موازي استفاده کرده‌اند و يا منابع ديگري از پيکره‌هاي تطبيقي را به کار برده‌اند. با بکارگيري اينگونه منابع براي استخراج جملات موازي و ساخت پيکره‌هاي موازي، مي‌توان بر دو مشکلي که پيشتر عنوان شدند (کمبود منابع و محدوديت دامنه) غلبه کرد. چرا که متون موجود در وب – که نامحدوند – و يا متون پيکره‌هاي تطبيقي که لزوما ترجمه يکديگر نبوده و تنها از نظر محتوا شباهت دارند، به ميزان زيادي در دسترسند. بعلاوه اينکه اين منابع محدوديت دامنه نيز ندارند. در ادامه، اين رويکردها در دو بخش (1) استخراج جملات موازي از وب و (2) استخراج جملات موازي از پيکره‌هاي تطبيقي، ذکر مي‌شوند.
استخراج جملات موازي از وب
از جمله کارهايي که از وب به عنوان منبع براي ساخت پيکره‌هاي موازي استفاده کرده‌اند مي‌توان به موارد زير اشاره کرد:
کار ني و همکاران [12] را مي‌توان در اين دسته آورد که در آن PTMiner براي کاويدن پيکره موازي از وب با استفاده از تطبيق الگوي URL و چند معيار ديگر مانند ساختار HTML، طول فايل و غيره به کار مي‌رود.
رسنيک و اسميت [13] از سيستم فيلترينگ ساختاري STRAN خود استفاده مي‌کنند. که جفت‌هاي موازي کانديد شده را با توجه به مجموعه‌اي از مقادير ساختاري مختص آن جفت که از صفحه HTML آنها بدست آمده فيلتر مي‌کند. آنها براي پيکره موازي انگليسي-چيني که توسعه دادند، دقت 98% و بازخواني 61% گزارش دادند.
ژانگ و همکاران [14] از يک شناساگر متن موازي چند مشخصه، از طريق طبقه‌بند k نزديک‌ترين همسايه استفاده کردند تا جفت‌هاي موازي چيني-انگليسي را از اينترنت شناسايي کنند. و دقت 95% و بازخواني 97% را بدست آوردند.
فانگ و همکاران (2010) در [33]، سعي بر کاويدن مستمر جملات موازي از تريليون‌ها وب سايت به عنوان مستندات تطبيقي دارند، که نه از نظر دامنه محدود باشد و نه از نظر ساختار يو آر ال‌ها و يا تاريخ انتشار. اما آنها خاطر‌نشان مي‌کنند که کار ارائه شده همچنان در حال انجام و پيشرفت است و مقاله را براي مطلع کردن ديگر محققان از اهداف کارشان ارائه داده‌اند.
کوانگ و همکاران در سال 2010 [34]، سعي بر استخراج متون موازي از پيکره‌هاي تطبيقي داشتند. آنها از ترکيب سه روش (1) فيلتر کردن مبتني بر طول جملات، (2) شرط همشکل بودن دو جمله (از نظر نشانه‌گذاري‌هاي جمله) و (3) شباهت مبتني بر محتوا استفاده کردند. در مرحله اول از معيار گيل و چرچ [25] براي فيلتر کردن جملات بر مبناي طولشان استفاده کردند. ابتدا نسبت طول تمامي جفت جملات موازي که در دسترسشان بود را محاسبه و سپس ميانگين و واريانس اين نسبت‌ها را به دست آوردند. جفت جملات کانديدي که نسبت طولشان در محدوده اين مقدار ميانگين و واريانس آنها قرار نگيرد از بين جفت جملات کانديد حذف مي‌شوند. در مرحله دوم ترتيب نشانه گذاري‌هاي به کار رفته در دو جمله (مانند علامت سوال، پرانتز، گيومه و …) با هم مقايسه مي‌شوند. در اين مرحله هم بايد ترتيب نشانه گذاري‌هاي دو جمله مشابه باشد و هم طول زيربخش‌هاي دو جمله شرط مرحله اول را داشته باشند تا جفت جمله کانديد از اين مرحله عبور کند، در غير اينصورت حذف خواهد شد. در مرحله سوم شباهت محتوايي بين دو جمله کانديد تخمين زده مي‌شود. به اين شباهت يک نمره داده مي‌شود و جفت مجملاتي که نمره شباهتشان از يک حد آستانه تعيين شده بيشتر باشد به عنوان جفت جمله موازي در نظر گرفته مي‌شوند. براي به دست آوردن اين شباهت محتوايي ابتدا يکي از دو جمله به عنوان جمله مبدأ به زبان مقابل ترجمه شده، سپس نمره شباهت دو جمله بر مبناي ميزان عبارات مشترک و طول دو جمله به دست مي‌آيد. آزمايشات آنها بر روي جفت زبان انگليسي-ويتنامي و متون گرفته شده از ويکي پديا است. آنها ارزيابي‌هايشان را در يک مرحله بر مبناي افزايش ميزان حد آستانه براي نمره شباهت محتوايي قرار دادند و در مرحله‌اي ديگر ميزان تأثير پيکره موازي استخراج شده در بهبود ترجمه ماشيني آماري را با استفاده از معيار بلو ارزيابي کردند، و در اين مرحله از ماشين ترجمه آماري موزز استفاده کردند.
استخراج جملات موازي از پيکره‌هاي تطبيقي
استخراج جفت جملات موازي از وب مشکلاتي را نيز دارد که از آن جمله مي‌توان به وجود متوني که بصورت خودکار ترجمه شده‌اند و در وبسايت‌ها قرار مي‌گيرند اشاره کرد[35] بعلاوه اينکه اين داده‌هاي خام دقت پاييني دارند. کارهايي با هدف استخراج جملات موازي از پيکره‌هاي تطبيقي انجام شده‌اند، که کمتر با چنين مشکلاتي مواجهند. در ادامه برخي از اين پژوهش‌ها آورده مي‌شود:
ماسوآيچي و همکاران در [36]، براي استخراج جفت متن‌هاي موازي از پيکره شبه تطبيقي که توليد کرده بودند، روشي ارائه کردند. آنها بر روي يک روش CLIR موجود که بر مبناي رويکرد نگاشت اطلاعاتي است، يک رويکرد خود راه‌انداز اعمال کردند.
ژائو و واگل [37] براي پيدا کردن جملات موازي از پيکره تطبيقي خبري Xinhua از يک روش ابداعي استفاده کردند. آنها روش‌هاي بر مبناي لغت و جمله را با درنظر گرفتن معيار احتمال بيشينه، ترکيب کردند. و در همترازي کلمات، بر مبناي جملات موازي يافت شده شان، بهبود داشتند.
يوتياما و آيساهارا [32] براي استخراج جمله‌ها از يک پيکره تطبيقي خبري انگليسي-ژاپني، از تکنيک‌هاي CLIR و برنامه نويسي پويا استفاده کردند. آنها جفت مقاله‌هاي مشابه را شناسايي کرده، و سپس با اين جفت‌ها مشابه متون موازي برخورد کرده، و جملاتشان را بر اساس يک نمره شباهت همتراز کرده و با استفاده از برنامه نويسي پويا همترازي با کمترين هزينه در سراسر جفت مقاله را مي‌يابند.
يانگ و لي [38] يک رويکرد بر مبناي برنامه نويسي پويا پيش گرفتند، تا بتوانند جملات موازي پنهان در جفت عناوين يک پيکره تطبيقي انگليسي-چيني را شناسايي کنند. سپس براي تعيين ضريب اطمينان، طولاني‌ترين توالي مشترک، عمليات ويرايشي و توابع امتياز دهي تطابق محور به کار مي‌روند.
فانگ و چيونگ [39] بر روي “پيکره بسيار غير موازي” کار کردند، و بوسيله معيار شباهت کسينوسي مستندات چيني و انگليسي را تطابق دادند. آنها همه جفت جمله‌هاي ممکن را توليد کرده و سپس بهترينشان را بر اساس يک آستانه روي معيار شباهت کسينوسي، انتخاب کردند. با يادگيري يک لغت نامه از روي جملات استخراج شده و تکرار با جفت جمله‌هاي بيشتر بوسيله يک خودراه‌انداز، کارآيي را بهبود بخشيدند.
Wu و فانگ [40] از گرامر انتقال معکوس همراه با تکنيک‌هاي CLIR استفاده کردند، تا جملات موازي را از پيکره “شبه تطبيقي بسيار غير موازي” بيابند.
در کاري که در سال 2005 توسط مونتينو و مارکو صورت گرفت [41]، از يک واژه‌نامه دوزبانه براي ترجمه برخي از کلمات جمله مبدا استفاده شد. سپس اين ترجمه‌ها براي ساخت کوئري از پايگاه داده به کار مي‌روند، تا با استفاده از روش‌هاي بازيابي اطلاعات (IR) ترجمه‌هاي قابل تطبيق يافته شوند. جملات نامزد بر اساس ميزان اشتراک کلمه تعيين شده و تصميم گيري براي اينکه يک جفت جمله موازي هستند يا نه، توسط طبقه‌بند حداکثر آنتروپي که با جملات موازي آموزش داده شده صورت مي‌گيرد. براي بدست آوردن نتايج بهتر، با استفاده از رويکرد خودراه‌اندازي، اندازه لغت نامه دوزبانه مکررا در حال افزايش است.
کار Eisele و Xu [42] را مي‌توان نام برد، که در چارچوب پروژه ACCURAT کار مي‌کنند. هدف آن، تحليل و ارزيابي روش‌هاي نوين در استخراج پيکره‌هاي تطبيقي، و همچنين ارزيابي برخي روش‌هاي ارائه شده پيشين مي‌باشد. مقصود فراهم کردن نسخه‌هاي دوباره پياده سازي شده از روش‌هاي پايه‌اي مختلف براي محققان است. تمرکز تحقيقات اين پروژه بر روي هجده جفت زبان اروپايي کم منبع است.
عبد الرئوف و اسچونک در سال 2011 [24]، از پيکره LDC Gigaword به عنوان پيکره تطبيقي استفاده کردند. اين پيکره شامل متن‌هايي از آژانس‌هاي خبري چند زبانه است. آنها جمله زبان مبدا را توسط يک ماشين ترجمه آماري، ترجمه کرده و سپس آن را به عنوان کوئري به موتور بازيابي اطلاعات (IR) مي‌دهند. در فرآيند IR نيز 5 جمله با نمره بالاتر، از مستندات زبان مقصد (که در بازه زماني a±5 روز هستند) برگردانده مي‌شوند. سپس جمله‌هاي جفت شده از يک سري فيلتر‌ها عبور داده مي‌شوند تا ميزان مشابهت بين ترجمه ماشين آماري و جمله‌هاي بازيابي شده‌اندازه گيري شود. در نهايت جفت جمله‌ها بر مبناي نمره مشابهت به عنوان موازي يا غير موازي طبقه‌بندي مي‌شوند. گيل و چرچ [25] برنامه همترازيشان را بر مبناي اين حقيقت قرار دادند که جملات طولاني تر/کوچک‌تر در يک زبان به جملات طولاني تر/کوتاه‌تر در زبان ديگر ترجمه مي‌شوند. اما مشاهدات عبد الرئوف و اسچونک [24] نشان داد که اين فيلتر در هنگامي که اختلاف طول دو جمله خيلي زياد است درست عمل نمي کند. آنها از سه فيلتر WER (فاصله لون اشتاين )، TER [29] و TERp [30] استفاده کردند. WER تعداد عمليات مورد نياز براي تبديل يک جمله به جمله ديگر را اندازه مي‌گيرد که اين عمليات عبارتند از درج، حذف، جايگزيني. TER همان عمليات WER را دارد به اضافه عمل شيفت و TERp نيز همه عمليات TER را دارد به اضافه سه عمليات جديد: تطابق ريشه، تطابق معنايي و جايگزيني عبارت.
تشخيص جملات موازي با استفاده از طبقه‌بند آنتروپي بيشينه
از ميان کارهايي که در آنها از طبقه‌بند آنتروپي بيشينه براي رسيدن به اين هدف استفاده شده است مي‌توان به موارد زير اشاره کرد:
مانتيانو و همکاران در [43] تلاش مي‌کنند تا جملات موازي را از پيکره‌هاي تطبيقي خبري استخراج کنند. طبقه‌بند آنتروپي بيشينه قسمت اصلي کار آنهاست. آنها ابتدا تمام جملات هر دو مقاله خبري مشابه را با يکديگر جفت کردند و سپس اين جفت جملات را از فيلتر طول کلمه و فيلتر کلمات مشترک عبور دادند. به اين معني که نسبت طول هر جفت جمله بايد کمتر از 2 باشد و حداقل نيمي از کلمات جمله مبدأ ترجمه‌اي در جمله مقصد داشته باشند. آنها از ويژگي‌هاي عمومي جمله‌ها و

دیدگاهتان را بنویسید