پایان نامه با کلید واژه های زبان مبدأ

همچنين ويژگي‌هاي مبتني بر همترازي در سطح کلمه بين دو جمله براي تشخيص موازي بودن يا غير موازي بودن دو جمله استفاده کردند. آنها براي آموزش طبقه‌بند آنتروپي بيشينه از دو پيکره موازي 5000 جمله‌اي که يکي از داده‌هاي “در دامنه” و ديگري “خارج از دامنه” است استفاده کردند. داده‌هاي آزمايشي آنها نيز شامل 7000 جمله خارج از دامنه است.
نتايج ارزيابي‌هاي آنها از طبقه‌بند آنتروپي بيشينه نشان داد که طبقه‌بندي که با داده‌هاي در دامنه آموزش داده شده، دقت بالايي به دست مي‌آورد و اين به خاطر کيفيت بالاي داده‌هاي در دامنه است. از طرف ديگر ميزان بازخواني براي طبقه‌بندي که با داده‌هاي مشابه داده‌هاي آزمايشي يعني داده‌هاي خارج از دامنه آموزش داده شده، بسيار بالا است. آنها از ارزيابي‌ها دريافتند که 99% کارآيي طبقه‌بند آنتروپي بيشينه از ويژگي‌هاي عمومي به همراه ويژگي‌هاي مربوط به درصد کلماتي که در همترازي در سطح کلمه اتصالي نداشته‌اند، به دست مي‌آيد. اما آنها اظهار داشتند براي داده‌هاي واقعي مانند جملات ورودي طبقه‌بند آنها که از پيکره‌هاي تطبيقي به دست مي‌آيد تفاوت بين جملات موازي و غير موازي خيلي واضح نيست، بنابراين بايد از ديگر ويژگي‌هاي مربوط به همترازي در سطح کلمه يک جفت جمله نيز استفاده کرد.
منصوري و فيلي نيز در [8] تلاشي براي ساخت يک پيکره موازي داشته‌اند. آنها براي ساخت پيکره موازي از کتاب‌هاي دوزبانه انگليسي-فارسي استفاده کردند. اين کتاب‌ها در مرحله اول از فرمت پي دي اف به فرمت متن با يونيکد UTF-8 در مي‌آيند، سپس بر اساس فصل از هم جدا مي‌شوند. در مرحله بعد فاصله بين کلمات تعيين و تصحيح مي‌شوند و در نهايت مرحله شکستن متن به جملات، که جهت تعيين مرز بين جملات از ابزار OpenNLP استفاده مي‌کنند. روشي که آنها براي همترازي در سطح جمله به کار گرفتند، ترکيبي از روش‌هاي برپايه طول و روش‌هاي مبتني بر کلمات مرتبط است. آنها اظهار داشتند که جملات همتراز شده در اين سطح شامل برخي خطاها بوده و نويزي هستند. سپس براي فيلتر کردن اين جملات نويزي از طبقه‌بند آنتروپي بيشينه استفاده کردند. آنها ويژگي‌هاي عمومي يک جفت جمله را در نظر گرفتند و همچنين احتمال ترجمه با ميانگين هندسي به دست آمده از آي بي ام مدل 1 را به عنوان ويژگي به کارگرفتند. آنها علاوه بر نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌هاي مبدأ و مقصد به طول جمله، از نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌هاي مبدأ و مقصد به ضرب طول جمله مبدأ در طول جمله مقصد نيز استفاده کردند. آنها در ارزيابي طبقه‌بند آنتروپي بيشينه از چهار مجموعه داده آزمايشي شامل 400 جمله استفاده کردند و به دقت و بازخواني بالايي دست يافتند.
کافمن در [44] براي تشخيص جملات موازي و جملات غير موازي، يک طبقه‌بند آنتروپي بيشينه پياده سازي شده با جاوا به نام “JMaxAlign” ارائه مي‌دهد. او از مجموعه ويژگي‌هايي که در [43] آمده است استفاده مي‌کند و ادعا مي‌کند فيلترهايي که آنها براي ورودي طبقه‌بند آنتروپي بيشينه به کار مي‌برند در حقيقت باعث مي‌شود طبقه‌بند نمونه‌هاي خوبي را براي آموزش از دست بدهد. او ميزان شباهت زبان‌هاي به کار رفته را بررسي کرد و نشان داد که در جفت زبان‌هايي که از نظر زباني به هم نزديکترند معيار F بالاتري به دست مي‌آيد. او همچنين نشان داد که دامنه داده‌هاي آموزشي و آزمايشي تأثير زيادي بر کيفيت طبقه‌بند آنتروپي بيشينه دارد، و هنگامي که دامنه داده‌هاي آموزشي و آزمايشي مشابه باشند معيار F بسيار بيشتر مي‌شود.
چو و همکاران در مقاله‌اي که در سال 2013 ارائه دادند [45]، جفت جملات موازي چيني-ژاپني را از پيکره شبه تطبيقي استخراج مي‌کنند. آنها کار مانتيانو و همکاران را توسعه مي‌دهند با اين تفاوت که پيکره مورد استفاده براي استخراج جملات شبه تطبيقي است. قسمت اصلي کار آنها طبقه‌بند آنتروپي بيشينه است. آنها ادعا مي‌کنند که فرآيند يادگيري و آزمايش طبقه‌بند که در کار پيشين استفاده شده، واقعي نيست زيرا از ضرب کارتزين براي جفت کردن جملات استفاده مي‌کنند. آنها علاوه بر آن چند ويژگي که مختص کاراکترهاي مشترک بين زبان چيني و ژاپني هستند را به طبقه‌بند اضافه کردند.
فرآيند استخراج جملات موازي به کار رفته در چهار مرحله انجام مي‌شود: 1) جملات پيکره چيني با ماشين ترجمه، به ژاپني ترجمه مي‌شوند. 2) جملات ترجمه شده به عنوان کوئري در فرآيند بازيابي اطلاعات از پيکره ژاپني مورد استفاده قرار مي‌گيرند. 3) به ازاي هر جمله ترجمه شده، بالاترين N سند بازگردادنده شده توسط چارچوب بازيابي اطلاعات را در نظر مي‌گيرند. 4) جمله ترجمه شده مورد نظر را با تمام جملات موجود در N سند بازيابي شده جفت مي‌کنند. 5) از فيلترهاي طول کلمات و کلمات مشترک براي فيلتر کردن جفت جمله‌ها و توليد جفت جملات کانديد استفاده مي‌کنند. 6) براي تشخيص جفت جملات موازي از بين جفت جملات کانديد، از طبقه‌بند آنتروپي بيشينه که با مقدار کمي جمله موازي آموزش داده شده، استفاده مي‌کنند.
ساخت پيکره موازي انگليسي – فارسي
براي جفت زبان فارسي-انگليسي نيز تلاش‌هايي در جهت ساخت پيکره موازي صورت گرفته است، که پيشتر در بخش 2-1-1 به عنوان مثالي از پيکره‌هاي موازي فارسي-انگليسي ذکر شدند. ذکر اين نکته نيز ضروري است که تمام کارهاي انجام شده براي جفت زبان فارسي-انگليسي از متون همراه ترجمه براي ساخت پيکره موازي استفاده کرده‌اند، از جمله زيرنويس فيلم‌ها، کتاب‌هاي لاتين که کتاب ترجمه شده آنها نيز در دسترس است، کتابچه‌هاي راهنماي چند زبانه و سايت‌هاي خبري چند زبانه.

فصل چهارم
مدل پيشنهادي

مدل پيشنهادي
مقدمه
در اين فصل مي‌خواهيم مدلي کارآ براي توليد پيکره متني موازي از روي پيکره متني تطبيقي ارائه دهيم. اين مدل از سه مرحله اصلي تشکيل شده است. شماي کلي اين مدل در شکل 4-1 آمده است. مرحله اول، عبارت است از توليد جفت جمله‌هايي که براي موازي بودن کانديد هستند. در اين مرحله، ابتدا تمام جفت جمله‌هاي ممکن از دو سند قابل تطبيق به دو زبان مبدأ و مقصد در نظر گرفته مي‌شوند؛ سپس از بين آنها جفت جمله‌هايي که از “فيلتر نسبت طول دو جمله” و ” فيلتر نرخ تعداد کلمات مشترک” بتوانند عبور کنند به عنوان جفت جمله‌هاي کانديد در نظرگرفته مي‌شوند و به مرحله بعدي که انتخاب جفت جملات موازي است فرستاده مي‌شوند. اين کار باعث مي‌شود جفت جملاتي که موازي نبودنشان نسبتا بديهي است حذف شوند و در نتيجه دقت را بالا مي‌برد. مرحله دوم، عبارت است از انتخاب جفت جمله‌هاي موازي از بين جفت جمله‌هاي کانديداي موازي بودن. در اين مرحله از يک طبقه‌بند آنتروپي بيشينه جهت طبقه‌بندي جفت جمله‌ها به دو دسته “موازي” و يا “غير موازي” استفاده مي‌شود. در نهايت براي بالا بردن دقت جملات استخراج شده، جملاتي که به اين صورت موازي شناخته مي‌شوند وارد مرحله سوم مي‌شوند و از فيلتر “معيار TER” گذرانده مي‌شوند. جفت جملاتي که بتوانند از اين فيلتر عبور کنند، پيکره موازي را تشکيل مي‌دهند. اين سه مرحله اصلي از فرآيند کار در بخش‌هاي 4-2، 4-3 و 4-4 به تفصيل شرح داده مي‌شوند.

شماي کلي مدل توليد پيکره موازي از روي پيکره تطبيقي
انتخاب جفت جملات کانديد موازي بودن
يک پيکره تطبيقي دوزبانه شامل سندهايي به دو زبان است که بر اساس معيارهايي از قبيل شباهت محتوا بر هم منطبق شده‌اند. در اينجا، همانطور که گفته شد بعد از اينکه ابتدا با ضرب کارتزين تمام جملات سندهاي قابل تطبيق را در مقابل هم قرار داديم، از دو فيلتر براي انتخاب جفت جملاتي که براي موازي بودن کانديد هستند استفاده مي‌کنيم. اولين فيلتر حذف جفت جملاتي است که نسبت طول دو جمله آنها از يک مقدار بيشتر باشد؛ چرا که دو جمله هم‌ترجمه اغلب نسبت طولشان از يک مقدار مشخص بيشتر نمي شود. به عبارت ديگر اغلب جملات کوتاه ترجمه کوتاهي دارند و جملات طولاني نيز ترجمه طولاني دارند. اين مقدار مي‌تواند به طور دلخواه در نظر گرفته شود مانند [43] که در آن مقدار ثابت 2 را در نظر گرفتند، و يا مي‌تواند بر اساس ميانگين نسبت طول جفت جملات موازي در يک پيکره موازي در نظر گرفته شود [25]. بخش بعدي فيلتر کلمات مشترک و نحوه به دست آوردن آن را به طور مفصل شرح مي‌دهد.

فيلتر کلمات مشترک22
در اين فيلتر ابتدا کلمات هم‌ترجمه يا به عبارتي کلمات مشترک بين دو جمله مورد نظر شناسايي مي‌شوند. نسبت تعداد اين کلمات مشترک به تعداد کل کلمات جمله را “نرخ کلمات مشترک” مي‌گوييم. به اين معنا که مي‌خواهيم ببينيم چند در صد از کلمات يک جمله، ترجمه‌اي در جمله مقابل دارند. شکل 4-2 مثالي از دو جمله فارسي و انگليسي است که در آن کلمات مشترک بين دو جمله، مشخص شده‌اند.

کلمات مشترک بين دو جمله فارسي و انگليسي
فيلتر کلمات مشترک، يک حد آستانه است که بر روي نرخ کلمات مشترک در نظر گرفته مي‌شود، و جفت جملاتي که نرخ کلمات مشترکشان از اين حد آستانه کمتر باشد فيلتر شده و جفت جملاتي که نرخ کلمات مشترکي بالاتر از اين حد آستانه دارند به عنوان کانديدا براي موازي بودن انتخاب خواهند شد. مقدار حد آستانه را مي‌توان به طور تجربي به دست آورد. براي مثال، حد آستانه 25% به اين معني است که حداقل 25% از کلمات جمله مقصد يا مبدأ بايد ترجمه‌اي در جمله طرف ديگر داشته باشد. لازم به ذکر است که تنها منبع مورد نياز در اين مرحله لغت‌نامه است.
در اينجا با دو عدد نرخ کلمات مشترک رو به رو هستيم. زيرا از يک طرف لغت‌نامه مورد استفاده مي‌تواند از طرف مبدأ به مقصد (از انگليسي به فارسي) باشد و يا بالعکس، و اين لغت‌نامه‌ها ضرورتا داراي مدخل‌هاي يکساني نيستند؛ و از طرفي ديگر تعداد کلمات جمله‌هاي مبدأ و مقصد متفاوت است. از اينرو يکي نرخ تعداد کلمات مشترک جمله مبدأ به تعداد کل کلمات جمله مبدأ و ديگري نرخ تعداد کلمات مشترک جمله مقصد به تعداد کل کلمات جمله مقصد مي‌باشد. ما با توجه به اينکه تنها لغت‌نامه انگليسي به فارسي با کيفيت مطلوب در دسترس بود از نرخ تعداد کلمات مشترک انگليسي به کل تعداد کلمات انگليسي استفاده کرديم.
براي بدست آوردن کلمات هم‌ترجمه بين دو جمله مي‌توان از لغت نامه احتمالاتي گرفته شده از يک پيکره موازي [43] و يا در صورت وجود از لغت‌نامه‌هاي الکترونيکي استفاده کرد. در اينجا از لغت‌نامه الکترونيکي استفاده کرديم چراکه لغات موجود در آن عمومي هستند و مربوط به دامنه خاصي نمي شوند، در حالي که لغت نامه‌هاي احتمالاتي که از پيکره‌هاي موازي گرفته مي‌شوند تنها شامل لغات موجود در دامنه پيکره موازي مي‌شوند. براي به دست آوردن نرخ کلمات مشترک، ابتدا بايد يکسري عمليات پيش پردازشي بر روي جملات انجام شود اين عمليات در ادامه مي آيند.
تبديل کدگذاري کاراکترها
به دليل شباهت حروف زبان فارسي و عربي، گاهي اوقات در دنياي ديجيتال براي نوشتن حروف فارسي از کدگذاري حروف عربي استفاده مي‌شود، و اين باعث مي‌شود براي يک حرف دو نگارش متفاوت و به عبارتي دو کاراکتر متفاوت وجود داشته باشد. به طور مثال براي حرف “کاف” دو کاراکتر ” ك ” عربي با يونيکد 1603 و “ک” فارسي با يونيکد 1705 وجود دارد. همچنين براي حرف “ي” دو کاراکتر “ي” عربي با يونيکد 1610 و “ي” فارسي با يونيکد 1740 وجود دارد. از اينرو اگر اينگونه ناهماهنگي بين کارکاترهاي لغت‌نامه مورد استفاده و پيکره تطبيقي وجود داشته باشد (به طور مثال نگارش لغت‌نامه با کاراکترهاي فارسي باشد و نگارش پيکره تطبيقي با کاراکترهاي عربي)، در هنگام جستجوي ترجمه يک کلمه مبدأ که از لغت‌نامه استخراج شده، بين کلمات جمله مقصد با مشکل مواجه خواهيم شد. زيرا يک

دیدگاهتان را بنویسید