غلط‌یاب املایی وفا

غلط‌یاب املایی وفا

  • عنوان پروژه: به سازي و ارائه الگوريتمهاي جديد خطايابي املايي و دستوري زبان فارسي و پياده سازي نرم افزار مربوطه
  • مجری: دانشگاه تهران
    • تاریخ شروع: خرداد ۱۳۸۸
    • تاریخ پایان: اسفند ۱۳۸۸
  • وضعیت: خاتمه‌یافته
  • کلمات کلیدی: خطاياب زبان فارسی، خطاياب نحوی، خطاياب لغوی و خطایابی معنایی
  • خلاصه پروژه:
    هدف از انجام اين پروژه جمع آوري و بهينه سازي الگوريتمهاي تصحيح خودکار متون فارسي جهت تهيه يک سيستم تصحيح خودکار متون است. خطاهاي نوشتاري به سه دسته خطاهاي لغوي، نحوي (گرامري) و معنايي تقسيم مي‌شوند. منظور از خطاهاي لغوي آن دسته از خطاهاست که به دامنه کلمات محدود مي‌شود، و در صورتي که کلمه در لغتنامه موجود نباشد و يا بر اساس قواعد ساختواژي توجيه نشود، خطا محسوب ميگردد. خطا‌هاي نحوي (گرامري) نيز که در سطح جمله و ارتباط کلمات با يکديگر مطرحند، شامل خطاهايي چون عدم تطابق (مثلا بين فاعل و فعل)، عدم رعايت ترتيب بکارگيري کلمات (صفت قبل از موصوف) و بطورکلي هرگونه نوشتاري که با قواعد دستوري فارسي ناسازگار باشد. نهايتا خطاهاي معنايي به کاربرد نادرست کلمات درست مربوط مي‌شود. مثلا قيدي از اول جمله بر اساس يک خطاي لغوي به اسمي که در لغتنامه وجود دارد تبديل شود ("اکثر" به "اکبر") به اينگونه خطاها، خطاهاي real word نيز گفته مي‌شود.
هدف از انجام اين پروژه جمع آوري و بهينه سازي الگوريتمهاي تصحيح خودکار متون فارسي جهت تهيه يک سيستم تصحيح خودکار متون است. خطاهاي نوشتاري به سه دسته خطاهاي لغوي، نحوي (گرامري) و معنايي تقسيم مي‌شوند. منظور از خطاهاي لغوي آن دسته از خطاهاست که به دامنه کلمات محدود مي‌شود، و در صورتي که کلمه در لغتنامه موجود نباشد و يا بر اساس قواعد ساختواژي توجيه نشود، خطا محسوب ميگردد. خطا‌هاي نح وي (گرامري) نيز که در سطح جمله و ارتباط کلمات با يکديگر مطرحند، شامل خطاهايي چون عدم تطابق (مثلا بين فاعل و فعل)، عدم رعايت ترتيب بکارگيري کلمات (صفت قبل از موصوف) و بطورکلي هرگونه نوشتاري که با قواعد دستوري فارسي ناسازگار باشد. نهايتا خطاهاي معنايي به کاربرد نادرست کلمات درست مربوط مي‌شود. مثلا قيدي از اول جمله بر اساس يک خطاي لغوي به اسمي که در لغتنامه وجود دارد تبديل شود ("اکثر" به "اکبر") به اينگونه خطاها، خطاهاي real word نيز گفته مي‌شود. ابزار مورد نظر قادر به تصحيح خطاها و اشتباهات متون فارسي بوده و همچنين توانايي يكسان سازي و استاندارد سازي عبارات و كلمات فارسي را دارا مي باشد. اين محصول مي تواند به يكي از پركاربرد ترين ابزارهاي مورد استفاده در تدوين متون فارسي تبديل گرددبه گونه اي كه خطاهای تايپی شما را تشخيص داده و معادل صحيح کلمه را به شما نشان می دهد. تصحیح

کاربردها:

  • بخش خطايابی نوشتاری وارسيگر وفا بر اساس يک لغتنامه حجيم که شامل کلمات پرکاربرد زبان فارسی است، انجام مي شود.
  • در اين لغتنامه تمام کلمات زبان، ريشه ها و مشتقات آنها که از نظر زبان مرسوم و صحیح است موجود است.
  • تصميم گيري در مورد تشخيص كلمات ناصحيح (خطاهای نوشتاری) براساس اين لغتنامه انجام مي گيرد.
  • بدين ترتيب، كلمه اي كه در لغتنامه موجود نباشد احتمالا داراي خطاي نوشتاری بوده و بايد به اصلاح آن اقدام کرد.
  • خطاهای دستوری به صورت مبتنی-بر-قانون و با تعريف يکسری قواعد دستورزبانی در سطح جملات کنترل می شوند. به منظور تشخيص و تصحيح خطاهای معنايی نيز الگوريتم ها و روش های متعددی به کار گرفته شده اند.

قابلیت‌ها و ویژگی‌ها

  • تشخيص و اصلاح خطاهاي املايي با دقت مناسب
  • تشخيص خطاهاي دستوري زبان فارسي با دقت بالاتر از 50 درصد
  • تشخيص برخي از خطاهاي معنايي متون فارسي با به كار گيري روشهاي آماري
  • قابل استفاده به صورت محصولي مستقل يا نصب به صورت افزونه در در واژه پرداز ها
  • پشتيباني از نسخه هاي 2003، 2007 و 2010 واژه پرداز MS Word
  •  ويرايش و تصحیح متون بر اساس رسم الخط مورد تاييد فرهنگستان زبان و ادب فارسی 
  • قابليت يادگيری و ارتقاء عملکرد به صورت خودکار

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد