پایان نامه با کلید واژه های کاراکترهاي، جمله‌ها، انگليسي

کلمه يکسان با کاراکترهاي متفاوت نوشته شده و در نتيجه اين کلمه به عنوان کلمه مشترک بين دو جمله تشخيص داده نمي شود. بنابراين در ابتدا تمام کدگذاري‌هاي مورد استفاده در منابع بايد به يک کدگذاري واحد تبديل شوند. در اينجا تمام کاراکترهاي عربي به کاراکترهاي فارسي تبديل مي‌شوند.
مشخص کردن مرز جمله‌ها و کلمه‌ها
در نگاه اول به نظر مي‌آيد مشخص کردن مرز جمله‌ها و کلمه‌ها يک مسئله بديهي و حل شده باشد. يک راه حل ساده که در ابتدا به ذهن مي‌رسد جدا کردن جملات با استفاده از کاراکتر نقطه و جداکردن کلمات با استفاده از کاراکتر فاصله است. مثال زير نشان مي‌دهد که اين راه حل در همه‌جا جوابگو نيست:
Mr. Jones bought a coat for $92.5.
در اين مثال تنها يک جمله وجود دارد، درحالي که با در نظر گرفتن نقطه به عنوان تعيين‌کننده مرز جمله‌ها اين جمله بصورت نادرستي به سه جمله شکسته مي‌شود. از طرف ديگر عبارت “$92.5” با اينکه داراي جداکننده فاصله نيست، بهتر است بصورت دو کلمه “92.5” و “$” در نظر گرفته شود زيرا ترجمه اين عبارت “92.5 دلار” است که دو کلمه محسوب مي‌شود.
همچنين علاوه بر نقطه، گاهي اوقات جمله با علامت سوال و علامت تعجب به پايان مي‌رسد. اين در حالي است که علامت سوال و علامت تعجب نيز هميشه نشان دهنده پايان جمله نيستند. براي غلبه بر اين مشکل راههاي هوشمندانه تري وجود دارد که در آنها از مسائل يادگيري ماشين و يادگيري با نظارت استفاده شده است. در اين روش‌ها نقطه، علامت سوال و علامت تعجب به عنوان پايان‌دهنده‌هاي پيش فرض و نه قطعي جمله در نظر گرفته مي‌شوند، و يک سري ويژگي از جمله کاراکترهاي قبل و يا بعد از اين نشانه‌ها، براي پيشگويي پايان‌ جمله‌ها در نظر گرفته مي‌شود. در اينجا، تجزيه جملات انگليسي با استفاده از طبقه‌بند آنتروپي بيشينه انجام مي‌شود که نسخه‌اي از ابزار OpenNLP است.
ريشه‌يابي23
در اينجا از ريشه‌يابي کلمات به منظور تبديل کلمات به شکلي که در لغت‌نامه ظاهر شده‌اند، استفاده مي‌شود؛ تا آنگاه بتوان معني کلمه مورد نظر را از لغت‌نامه استخراج کرد. منظور از ريشه‌يابي کلمات، حذف پسوندها، پيشوندها و ميانوند‌هاي کلمه و به‌دست آوردن ريشه کلمه است.
براي زبان انگليسي ريشه‌ياب‌هاي خودکار زيادي وجود دارد، در اينجا از يک ابزار پردازش صرفي کلمات انگليسي به نام ” morph” [46] استفاده کرديم که با گرفتن يک کلمه، جمله يا سند به عنوان ورودي، ريشه صرفي24 کلمات را مي‌دهد. مثال زير نمونه‌اي از خروجي توليد شده توسط اين ابزار را نشان مي‌دهد. با دادن جمله (1) به عنوان ورودي، جمله (2) خروجي توليد شده مي‌باشد.

There are both technical and marketing reasons why ADSL is in many places the most common type offered to home users.
There be both technical and market reason why ADSL be in many place the most common type offer to home user.
کلمات بر

دیدگاهتان را بنویسید