پایان نامه با کلید واژه های سازمان ملل متحد، سازمان ملل، ساختار و محتوا

ي نهايت) است. پيکره براي پژوهش‌هاي زباني مورد استفاده قرار مي‌گيرد. از آنجايي که در اين پژوهش کاربردهاي متني ترجمه ماشيني مدنظر است، منظور از پيکره، پيکره متني مي‌باشد؛ اما از اين پس جهت سهولت تنها از لفظ پيکره به جاي پيکره متني استفاده مي‌کنيم.
پيکره مجموعه‌اي نظام‌مند از متون است. منظور از “نظام‌مند” بودن اين است که ساختار و محتواي پيکره از اصول نمونه گيري معيني پيروي مي‌کنند؛ يعني اصولي که تعيين مي‌کند پيکره شامل چه متن‌هايي باشد. همچنين نظام‌مند بودن به اين معني است که اطلاعات پيکره در ترکيب درست و مشخصي در دسترس پژوهشگران قرار مي‌گيرد.
به منظور استفاده بهتر از پيکره در حوزه پردازش زبان‌هاي طبيعي، يک پيکره مي‌تواند حاشيه نويسي شده باشد. حاشيه نويسي يعني افزودن برخي اطلاعات به پيکره، مانند اطلاعات در مورد نقش کلمات، ريشه کلمات، ساختار يا تجزيه نحوي جملات و … . برخي پيکره‌ها کاملا تجزيه شده و حاشيه گذاري مي‌شوند که به اين نوع پيکره‌ها بانک درختي گفته مي‌شود.
پيکره‌هاي متني مي‌توانند تک زبانه، دوزبانه و يا چند زبانه باشند. در پيکره‌هاي تک زبانه متون تنها به يک زبان نوشته مي‌شوند. از اين نوع پيکره‌ها (که معمولا حاشيه نويسي شده‌اند) در بازيابي اطلاعات، يافتن نقش کلمه، رفع ابهام معنايي، مدل سازي زباني و غيره استفاده مي‌شود. پيکره‌هاي دوزبانه و چندزبانه نيز به ترتيب شامل متوني در دو و بيش از دو زبان هستند. از اين پيکره‌ها در بازيابي اطلاعات صليبي و مقايسه نظير به نظير استفاده مي‌شود. پيکره‌هاي دو يا چند زبانه به طور خاص در رويکردهاي ترجمه ماشيني مبتني بر پيکره استفاده مي‌شوند. در برخي از نوشتجات، پيکره دوزبانه به عنوان پيکره موازي قلمداد مي‌شود. دو نوع برجسته از پيکره‌هاي دو يا چند زبانه عبارتند از پيکره موازي و پيکره تطبيقي، که در ادامه معرفي مي‌شوند.
پيکره موازي13
پيکره موازي عبارتست از پيکره‌اي شامل متوني به يک زبان و ترجمه آنها در يک يا چند زبان ديگر. پيکره موازي مي‌تواند دوزبانه و يا چند زبانه باشد. با اين حال به دليل اينکه اغلب پيکره‌هاي موازي دوزبانه هستند، در برخي نوشتجات به پيکره موازي، پيکره دوزبانه يا متن دوزبانه نيز گفته مي‌شود. يک پيکره موازي جهت اينکه بتواند در ترجمه ماشيني استفاده شود بايد در سطح جمله همتراز شده باشد، يعني بايد جملات هم‌ترجمه با هم جفت شده باشند؛ که به آن “پيکره موازي همترازشده” گفته مي‌شود. همتراز کردن جملات پيکره موازي پيش نياز لازم براي بسياري از حوزه‌هاي پردازش زبان طبيعي و به خصوص ترجمه ماشيني است. از آنجا که پيکره‌هاي موازي اکثرا در قالب ترازبندي شده به کار مي‌روند، اغلب و نيز در ادامه اين رساله، منظور از پيکره موازي همان پيکره موازي همترازشده مي‌باشد.
تا کنون پيکره‌هاي موازي زيادي براي جفت زبان‌هاي مختلف توليد شده است. اما همچنان به حجم بيشتري از متون موازي نياز است. OPUS [16] مجموعه‌اي روبه‌رشد از پيکره‌هاي موازي آزاد است. در پروژه OPUS داده‌هاي برخط رايگان جمع آوري مي‌شوند و سپس بصورت خودکار پيش پردازش و حاشيه نويسي مي‌شوند و در نهايت به صورت يک بسته با محتواي آزاد در اختيار عموم قرار مي‌گيرند. Europarl [5] يکي از معروفترين پيکره‌هاي موازي موجود در OPUS است. اين پيکره موازي از گزارشات پارلماني اروپا استخراج شده است و شامل 21 زبان اروپايي است. اين پيکره به هدف توليد متون همتراز شده در سطح جمله و بهبود ترجمه ماشيني آماري ساخته شده است. پيکره سازمان ملل متحد نيز پيکره‌اي موازي و شش زبانه است. اين پيکره موازي از قطعنامه‌هاي مجمع عمومي سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پيکره قطعنامه‌هاي مجمع عمومي سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمي پيکره موازي انگليسي-فارسي وجود دارد، که به شيوه‌هاي مختلفي توليد شده‌اند و در اندازه و دامنه‌اي که پوشش مي‌دهند متفاوتند. پيکره موازي Shiraz [17] اولين تلاش گزارش شده براي توسعه پيکره انگليسي-فارسي است. اين پيکره شامل 3000 جمله فارسي است که از پيکره فارسي شامل مواد برخط جمع آوري شده است و بصورت دستي توسط دانشگاه ايالت نيومکزيکو به انگليسي ترجمه شدند تا سيستم ترجمه ماشيني Shiraz را آزمايش کنند. برخي تلاش‌ها در توسعه ترجمه ماشيني انگليسي-فارسي گفتار به گفتار براي نيروي حفاظت ارتش و فوريت‌هاي پزشکي با پشتيباني آژانس پروژه‌هاي تحقيقاتي پيشرفته دفاعي (DARPA) انجام شد. پيکره مورد استفاده در اين کارها از پيکره‌هاي موجود براي زبان‌هاي ديگر (مثلا انگليسي-عراقي) جمع آوري شده و يا از منابع محدود به دامنه‌اي خاص مانند راهنماهاي زبان و يا ترجمه‌هاي دستي پزشکي مي‌باشند [18]. قاسمي زاده و رحيمي تلاش‌هايي براي ساخت پيکره چندزبانه موازي براي زبان فارسي در فريم ورک MULTEXT-East انجام دادند [19]. آنها از کتاب 1984 اورول به عنوان متن اصلي براي ساخت پيکره استفاده کردند. طرف فارسي زبان پيکره تقريبا از 6606 جمله و 110000 نشانه تشکيل شده است.
محقق و صراف زاده [20] يک پيکره باز از زيرنويس فيلم‌ها توسعه دادند که حدودا شامل 10000 جفت جمله است. از طرفي ديگر پيلوار و همکاران [10] از مزاياي زيرنويس فيلم‌ها براي تشکيل TEP بزرگترين پيکره موازي انگليسي-فارسي تا به امروز، بهره بردند. که اکنون شامل 612086 جفت جمله و حدود چهار ميليون کلمه در هر دو زبان انگليسي و فارسي است. اگرچه آنها پذيرفته‌اند که زيرنويس فيلم‌ها شامل مکالمات روزانه که محاوره‌اي و غير رسمي اند، هستند و در نتيجه نمي توانند به راحتي بصورت خودکار تفسير شوند. اين امر قابليت استفاده اين پيکره را در برنامه‌هاي کاربردي پردازش زبان‌هاي طبيعي فارسي محدود مي‌کند.
فرجيان [21] نيز از منابع خبري قابل دسترس بصورت آنلاين، استفاده کرد و PEN، پيکره همتراز شده در سطح جمله را بطور نيمه خودکار ساخت. اين پيکره حدود 30000 جفت جمله همتراز شده دارد. جباري و همکاران [22] با ادغام چندين پيکره شامل پيکره استخراج شده از اخبار يک سايت خبري چند زبانه (شامل زبان فارسي و انگليسي)، پيکره تشکيل شده از زيرنويس‌هاي فيلم موجود در يک وب سايت، سه پيکره که بصورت دستي ترجمه شدند و همچنين دو پيکره موجود PEN و ELRA به همراه 20000 نام نويسه گرداني شده، پيکره بزرگ AFEC را به‌اندازه 700 ميليون خط توليد کردند.
به عنوان آخرين نمونه، انجمن منابع زبان اروپا (ELRA) يک پيکره – که بصورت تجاري از طريق وب در دسترس است- شامل حدود 3500000 کلمه در زبان فارسي و انگليسي ايجاد کرد که در سطح جمله همتراز شده، و شامل حدود 100000 جمله توزيع شده در بين 50021 مدخل است. اين پيکره ترکيبي است از چندين دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبيات، پزشکي، شعر، سياست، ضرب المثل، مذهبي و علمي.
پيکره تطبيقي14
پيکره تطبيقي نوعي پيکره دو يا چند زبانه است و شامل متوني مشابه در بيش از يک زبان مي‌باشد. مشابهت متون مي‌تواند انواع مختلفي داشته باشد. به طور مثال متون مي‌توانند از نظر شباهت محتوا، ژانر، دامنه و دوره‌هاي نمونه گيري قابل تطبيق (قابل مقايسه) باشند. متون يک پيکره تطبيقي ترجمه همديگر نيستند، بلکه قابل مقايسه بودن آنها به خاطر چارچوب نمونه گيري و توازن يکسانشان است. براي پيکره تطبيقي تعاريف مختلفي آمده است که در زير به دو نمونه اشاره مي‌شود:
يک پيکره تطبيقي مجموعه‌اي از متن‌هاست که به طور جداگانه در زبان‌هاي مربوطه ساخته شده‌اند و بر پايه شباهت محتوي ترکيب شده‌اند. اين‌ها مستنداتي از يک به چند زبان هستند که از نظر شکل و محتوي در ابعاد و درجات مختلف قابل مقايسه هستند [23].
پيکره تطبيقي عبارتست از يک جفت پيکره تک زبانه در دو زبان مختلف، که از دامنه‌هاي مشابهي هستند.
پيکره‌هاي تطبيقي در کاربردهاي آماري پردازش زبان‌هاي طبيعي به عنوان داده‌هاي آموزشي استفاده مي‌شوند، کاربردهايي مانند ترجمه ماشيني آماري و يا بازيابي اطلاعات صليبي. همچنين پيکره تطبيقي در حوزه زبانشناسي، کشفيات و مقايسه‌هاي بين زباني را ممکن مي‌سازد.
دسترسي به پيکره‌هاي تطبيقي نسبت به پيکره‌هاي موازي بسيار آسان‌تر است چراکه منابع براي متون اصلي و تک زبانه خيلي بيشتر از متون ترجمه شده است. منابع بالقوه براي پيکره‌هاي تطبيقي، آژانس‌هاي خبري چندزبانه مانند AFP و BBC و …، و يا دايره المعارف‌هاي چندزبانه مانند ويکي پديا و Encarta هستند. برخي از اين پيکره‌هاي تطبيقي به طور گسترده از طريق LDC در دسترس هستند.
همترازي15
همترازي (ترازيابي) در لغت به معني هماهنگي و يا ارتباط مطلوب و مناسب بين اجزا است. به عبارتي اجزايي با يکديگر همتراز مي‌شوند که يک هماهنگي خاص بين آنها باشد، که در اينجا اين هماهنگي از نوع “هم‌ترجمه” بودن است. همترازي بين دو جزء صورت مي‌گيرد و هر کدام از اجزاء به يک زبان مختلف هستند. همترازي در سطوح مختلفي از متن انجام مي‌شود که عبارتند از همترازي در سطح سند، همترازي در سطح جمله و همترازي در سطح کلمه. هر کدام از انواع همترازي در ادامه توضيح داده مي‌شوند.
همترازي در سطح سند
همترازي در سطح سند به معني نظير کردن سندهايي در زبان‌هاي مختلف به يکديگر است که با يکديگر قابل تطبيق هستند. اين قابل تطبيق بودن مي‌تواند از نظر محتوا و يا ابعاد ديگر يک سند باشد، مانند تاريخ سند براي مستندات خبري، يا عنوان سند براي سندهاي ويکي پديا و يا ساختار HTML سند براي سندهايي که از وب جمع آوري مي‌شوند. همترازي در سطح سند براي مجموعه نوشتجاتي که ترجمه هم هستند، به معني جفت کردن هر سند با سند ترجمه اش در زبان ديگر است.
همترازي در سطح جمله16
همترازي در سطح جمله يعني يافتن جملات هم‌ترجمه از دو متن به دو زبان مختلف که ترجمه يکديگر هستند. گاهي اوقات در ترجمه متن يک جمله به دو جمله يا برعکس دو جمله به يک جمله ترجمه مي‌شوند در نتيجه همترازي جملات امري بديهي نيست. همترازي جملات، اصلي‌ترين کار در ساختن پيکره موازي از روي متون از پيش ترجمه شده مانند کتاب‌ها يا خبرهاي دو زبانه است. از اينرو همترازي جملات يک زمينه بسيار پر فعاليت در بين پژوهش‌هاي اخير حوزه ترجمه ماشيني است.
تا کنون الگوريتم‌هاي زيادي براي همترازي در سطح جمله ارائه شده است. اولين الگوريتم‌ها بر اساس طول جمله که بر حسب تعداد کلمات و يا تعداد کاراکترهاي جمله‌اندازه گيري مي‌شود، ارائه شدند [3، 24]. برخي الگوريتم‌ها نيز مبتني بر اطلاعات لغوي جمله هستند [25]. همچنين در همترازي جملات از متوني که ترجمه يکديگر هستند مي‌توان از ترتيب جملات، موقعيت جملات در متن، نشانه‌هاي جمله مانند علائم نشانه گذاري و يا وجود اعداد به عنوان پارامتر جهت شناسايي جملات همتراز استفاده کرد [26]. در [27] روشي ارائه شده که جهت همترازي جملات، سند را بصورت تکرارشونده به دو بخش تقسيم مي‌کند. تا کنون ابزارهايي جهت همترازي جملات پياده سازي شده‌اند از جمله hunalign، Uplug، همتراز کننده جملات دوزبانه مايکروسافت و … . در شکل 2-1 نمونه‌اي از دو متن همتراز شده در سطح جمله را مشاهده مي‌کنيد. همانطور که از شکل پيداست جملات هميشه بصورت يک به يک نگاشت نمي شوند بنابراين همترازي جملات ضروري است.

?
Green tea naturally contains a small amount of caffeine, which is a stimulant that can suppress appetite.

چاي سبز مقدار کمي کافئين دارد اما همين مقدار کم کافئين مي‌تواند اشتهاي شما را سرکوب کند.
Drinking green tea will make you feel less hungry and give you energy to boot.

اگرچه نوشيدن چاي سبز باعث مي‌شود

دیدگاهتان را بنویسید