پایان نامه با کلید واژه های نرم افزار

اشتهاي شما کاهش يابد اما انرژي شما افزايش مي‌دهد.
The best times to drink green tea are in the morning and between meals.

بنابراين وقي از اين رژيم استفاده مي‌کنيد با کم شدن مقدار کالري مصرفي شما، انرژي شما کاهش نمي يابد و احساس ضعف و خستگي نمي کنيد.
Green tea is ideal in the morning because its caffeine will stimulate you for the day ahead.

بهترين زمان براي نوشيدن چاي سبز، صبح و بين وعده‌هاي غذايي روزانه است.
Do not, however, drink green tea too late in the afternoon or at night.

نوشيدن چاي سبز در هنگام صبح بسيار مفيد است زيرا کافئين موجود در آن شمار براي گذراندن يک روز پر کار آماده مي‌کند.
Otherwise, as with other drinks that contain caffeine, you may have trouble sleeping.

از نوشيدن چاي سبز در ساعات آخر شب خود داري کنيد زيرا کافئين موجود درآن ممکن است شما را بي خواب کند.
Your goal is to lose weight; therefore, you should not add fattening ingredients to your green tea.

هدف شما از گرفتن اين رژيم کاهش وزن است بنابراين نبايد افزودني‌هاي چاق کننده به چاي خود اضافه کنيد.
نمونه‌اي از دو متن همتراز شده در سطح جمله

همترازي در سطح کلمه17 (همترازي لغوي)
در همترازي در سطح کلمه يا همترازي لغوي، کلمات متناظر در دو جمله هم‌ترجمه با يکديگر نظير مي‌شوند. در همترازي لغوي کلماتي با هم نظير مي‌شوند که ترجمه يکديگر باشند. شکل 2-2 نمونه‌اي از همترازي لغوي بين دو جمله فارسي و انگليسي را نشان مي‌دهد. همترازي لغوي بين دو جمله معمولا بصورت يک گراف دو بخشي نمايش داده مي‌شود که دو کلمه با يک يال به هم متصل مي‌شوند اگر و فقط اگر آن دو کلمه ترجمه همديگر باشند. شکل 2-3 صورت ديگري از نحوه نمايش همترازي لغوي بين دو جمله است.

همترازي لغوي بين دو جمله فارسي و انگليسي در شکل گراف دو بخشي

ايرانيان
سراسر
جهان
يلدا
را
جشن
ميگيرند

Iranians

around

the

world

celebrate

Yalda
همترازي لغوي بين دو جمله فارسي و انگليسي در شکل جدول همترازي
همترازي لغوي يک جزء حمايتي مهم در اکثر روش‌هاي ترجمه ماشيني آماري است. همه رويکردهاي جاري در ترجمه ماشيني آماري از همترازي لغوي يا براي آموزش و يا در توابع ويژگي استفاده مي‌کنند. پارامترهاي مدل‌هاي ترجمه ماشيني آماري معمولا با استفاده از متون دوزبانه که در سطح کلمه همتراز شده‌اند تخمين زده مي‌شوند، و برعکس در همترازي خودکار لغوي، آن همترازي انتخاب مي‌شود که در مدل ترجمه ماشيني آماري بهترين نتيجه را بدهد. از اينرو يک دور در کاربرد اين دو وجود دارد که منجر به نوعي الگوريتم حداکثر سازي اميد رياضي مي‌شود. اين روش يادگيري نوعي آموزش بدون نظارت است، که در آن نمونه‌هايي با خروجي‌هاي مطلوب به سيستم داده نشده است اما تلاش مي‌کند که بهترين همترازي را براي داده‌هايي که ديده نشده‌اند بيابد. البته روش‌هاي با نظارت نيز براي همترازي لغوي بکارگرفته شده‌اند که در آنها به سيستم مقداري جمله دستي همتراز شده داده مي‌شود.
همترازي لغوي با استفاده از مدل‌هاي آي‌بي‌ام
آي بي ام براي همترازي لغوي 5 مدل ارائه کرده است که شناخته شده‌ترين مدل‌هاي همترازي لغوي محسوب مي‌شوند. آي بي ام مدل 1 ساده‌ترين آنهاست، همينطور که از مدل 1 تا 5 مي‌رويم، مدل‌ها پيچيده‌تر اما واقعي‌تر مي‌شوند. آي بي ام مدل 1 تنها بر اساس ترجمه لغوي است، آي بي ام مدل 2 موقيعيت کلمات در جمله را نيز در نظر مي‌گيرد، آي بي ام مدل 3 اتصال يک کلمه به چندين کلمه را نيز مورد توجه قرار مي‌دهد، آي بي ام مدل 4 مشکلي که براي جفت جملات طولاني به وجود مي‌آيد مورد هدف قرار مي‌دهد و مدل آي بي ام 5 نيز مشکلات مدل‌هاي 3 و 4 را برطرف مي‌کند.
ابزار Giza++ [28] ابزاري است که از مدل‌هاي اي بي ام براي همترازي لغوي استفاده مي‌کند. فرآيند به دست آوردن همترازي لغوي بين دو جمله يک فرآيند زمانبر است. ابزار MGiza++ نسخه توسعه يافته Giza++ است که قابليت مهم اجراي موازي به آن اضافه شده است.
ارزيابي ترجمه ماشيني
يکي از مهترين قسمت‌ها در طراحي يک ماشين ترجمه، ارزيابي خروجي توليد شده توسط آن است. همچنين براي مقايسه دو ماشين ترجمه طراحي شده، مي‌بايست خروجي توليد شده توسط آنها را ارزيابي کرد. روش‌هاي ارزيابي ترجمه ماشيني، در دو دسته کلي ارزيابي انساني و ارزيابي خودکار قرار مي‌گيرند. روش ارزيابي توسط انسان گرچه به واقيت نزديک‌تر است، اما روشي پرهزينه و زمانبر است. از اينرو در سالهاي اخير متريک‌هاي متنوعي براي ارزيابي خودکار ترجمه ماشيني طراحي شده‌اند. در ادامه چند متريک مختلف از ارزيابي خودکار شرح داده مي‌شوند.
بلو18
بلو از اولين متريک‌هاي ارائه شده است که به کيفيت قضاوت انساني نزديک است. در حال حاضر بلو يکي از محبوب‌ترين متريک‌ها در زمينه ارزيابي ترجمه ماشيني است. ايده اصلي بلو اين است که “هر ترجمه ماشيني که به ترجمه انسان نزديک‌تر باشد بهتر است”. بلو ابتدا براي هر بخش که معمولا جمله در نظر گرفته مي‌شود، امتياز را محاسبه مي‌کند و سپس بين امتياز تمام جملات پيکره ميانگين مي‌گيرد. بلو براي تقريب زدن قضاوت انساني در سطح پيکره طراحي شده است، از اينرو اگر براي ارزيابي کيفيت جملات به صورت جداگانه استفاده شود خوب عمل نخواهد کرد.
نمره بلو عددي بين صفر و يک است که گاهي بصورت درصد نيز نمايش داده مي‌شود. هر چقدر اين عدد به يک نزديک‌تر باشد نشان دهنده اين است که ترجمه به ترجمه مرجع نزديک‌تر است؛ اگرچه ترجمه‌هاي انساني نيز کمتر نمره يک را به دست مي‌آورند. براي يک جمله، چندين ترجمه مطلوب مي‌تواند وجود داشته باشد که يا از کلماتي متفاوت استفاده کرده‌اند و يا ترتيب استفاده از کلمات در آنها کمي متفاوت بوده است. به همين دليل به دست آوردن نمره يک، ضروري و مهم نيست.
بلو هر جمله را با مجموعه‌اي از چندين جمله ترجمه با کيفيت مناسب به عنوان مرجع مقايسه مي‌کند. بلو، شکلي از معيار دقت را براي مقايسه ترجمه با جملات مرجع مورد استفاده قرار مي‌دهد. به عبارتي تعداد n-gram‌هاي موجود در جمله ترجمه را که در جمله مرجع نيز هستند به دست مي‌آورد و نسبت اين تعداد را به کل تعداد کلمات جمله محاسبه مي‌کند. به دليل وجود ترجمه‌هاي مختلف مطلوب براي يک جمله، هر چه تعداد ترجمه‌هاي مرجع بيشتر باشد نمره بلوي به دست آمده بيشتر خواهد بود.
متريک NIST
متريک NIST بر مبناي متريک بلو است. تفاوت اين معيار با معيار بلو در اين است که بلو هنگام به دست آوردن دقت n-gram‌ها وزن يکساني به آنها مي‌دهد، اما NIST محاسبه مي‌کند که هر n-gram چقدر با معني است يا به عبارتي حاوي اطلاعات مفيد است. يعني وقتي يک n-gram صحيح در ترجمه يافت شد، هر چه اين n-gram کمياب‌تر باشد (به تعداد کمتري رخ داده باشد) وزن بيشتري به آن اختصاص داده مي‌شود. به طور مثال NIST به عبارت “interesting calculations” نسبت به عبارت “on the” وزن بيشتري مي‌دهد زيرا به ميزان کمتري رخ مي‌دهد.
نرخ خطاي کلمه 19
نرخ خطاي کلمه (WER) متريکي مبتني بر فاصله لون اشتاين يا فاصله ويرايش است؛ با اين تفاوت که فاصله لون اشتاين در سطح کاراکتر است اما WER در سطح کلمه. WER تعداد عمليات مورد نياز براي تبديل يک جمله (مرجع) به جمله ديگر (ترجمه) را اندازه مي‌گيرد که اين عمليات عبارتند از درج، حذف، جايگزيني. اگر تعداد جايگزيني‌هاي مورد نياز را S، تعداد حذف مورد نياز را D، تعداد درج‌ها را I و تعداد کلمات جمله مرجع را N در نظر بگيريم، معيار WER به صورت زير به دست مي‌آيد:

WER=(S+D+I)/N

هرچه قدر معيار WER کمتر باشد دو جمله به هم نزديک ترند.
نرخ خطاي ترجمه20 (TER)
گاهي ممکن است يک ترجمه مطلوب، از همان کلمات جمله مرجع استفاده کرده باشد اما اين کلمات به ترتيبي متفاوت در جمله ظاهر شوند، اما معيار WER نمي تواند اين حالت را به حساب آورد. اين مشکل توسط معيار TER [29] رفع شده است. TER همان عمليات WER را دارد به اضافه عمل شيفت. معيار TER در نظر مي‌گيرد که براي تبديل يک جمله “مرجع” به جمله “فرضيه” به چه تعداد عمل ويرايشي شامل عمل‌هاي: حذف، درج، جايگزيني و شيفت عبارت نياز است. نسبت اين تعداد عمل ويرايشي به کل تعداد کلمات جمله مرجع، نمره TER را مي‌دهد. از اينرو هر چه نمره TER کمتر باشد دو جمله به هم نزديک‌ترند. شکل2-4 يک مثال از نحوه محاسبه TER است.

مثالي از نحوه محاسبه نمره TER
جمله اول که با REF مشخص شده است، جمله مرجع است و جمله دوم که با HYP مشخص شده، جمله فرضيه است. در اين مثال براي تبديل جمله مرجع به فرضيه، بايد عبارت “SAUDI ARABIA” با عبارت “THE SAUDIS” جايگزين شود، يعني جايگزيني دو کلمه و دو عمل ويرايشي محسوب مي‌شود. همچنين عبارت “THIS WEEK” شيفت پيدا کرده است، که يک عمل ويرايشي محسوب مي‌شود. کلمه “AMERICAN” نيز در جمله مرجع آمده اما در فرضيه نيست، و يک عمل ويرايشي درج در نظر گرفته مي‌شود. از اينرو چهار عمل ويرايشي لازم است و از آنجا که تعداد کلمات جمله مرجع 13 کلمه است، نمره TER مي‌شود 4/13 يا 31%.
TERp [30] نسخه جديدتري از TER است که همه عمليات TER را دارد به اضافه سه عمليات جديد: تطابق ريشه، تطابق معنايي و جايگزيني عبارت. PER نيز يک معيار مربوط و مشابه است که جابجايي کلمات در جمله را نيز در نظر مي‌گيرد.

فصل سوم
مروري بر تحقيقات انجام شده

مروري بر تحقيقات انجام شده
مقدمه
تا کنون براي ساخت پيکره‌هاي موازي تلاش‌هاي بسياري شده است. در اينجا کارهاي انجام شده را در سه بخش اصلي ساخت پيکره موازي از روي متون هم‌ترجمه، ساخت پيکره موازي از وب و ساخت پيکره موازي از روي پيکره تطبيقي مي‌آوريم. در بخشي ديگر نيز کارهاي مرتبطي که رويکردي مشابه مدل ارائه شده داشته‌اند و از طبقه‌بند آنتروپي بيشينه استفاده کرده‌اند ذکر مي‌شوند. بخش نهايي اشاره‌اي کوتاه به کارهاي انجام شده در زبان فارسي خواهد داشت.
ساخت پيکره موازي از روي متون هم‌ترجمه
در برخي تلاش‌ها سعي بر ساخت پيکره‌هاي موازي از روي متوني است که همراه ترجمه هستند. اين کار با همتراز کردن سندهاي هم‌ترجمه در سطح جمله انجام مي‌شود.
فيليپ کوهن در سال 2005 [5]، پيکره‌اي از متون موازي در يازده زبان ساخت. متون اين پيکره از شرح مذاکرات مجلس اروپا گرفته شده‌اند، و به همين دليل يوروپارل (پارلماني اروپا) نام گرفته است. پيکره ساخته شده در اين کار همچنان در حال گسترش است و اکنون 21 زبان اروپايي را شامل مي‌شود. پيکره يوروپارل21 در حال حاضر پيکره‌اي شناخته شده در حوزه ترجمه ماشيني براي زبان‌هاي اروپايي است که در آزمايشات زيادي مورد استفاده قرار مي‌گيرد.
چانگ در سال 2004 در [31]، براي ساخت يک پيکره موازي چيني – انگليسي، متون همراه با ترجمه را از وب جمع آوري مي‌کند. اين متون از دامنه‌هاي مختلف مانند اخبار، مقالات تخصصي، نوشتجات ادبي و زيرنويس‌هاي فيلم‌ها و غيره گرفته شده‌اند. او نيز اذعان مي‌کند که متون الکترونيکي ترجمه شده به زبان چيني-انگليسي بسيار کم بوده، و ساخت يک پيکره موازي که از نظر دامنه توازن داشته باشد کاري دشوار است.
ايشيساکا و همکاران در سال 2009 [9] براي غلبه بر مشکل کمبود پيکره موازي براي جفت زبان ژاپني-انگليسي، از کتابچه‌راهنماهاي نرم افزارهاي متن باز استفاده کردند. آنها بيان مي‌کنند که کيفيت ترجمه راهنماها نسبتا بالاست، زيرا توسط کساني ترجمه شده‌اند که عضو خود پروژه‌ها بوده‌اند بعلاوه اينکه توسط افراد ديگري از

دیدگاهتان را بنویسید