تشخیص موجودیت‌های اسمی در زبان فارسی

تشخیص موجودیت‌های اسمی در زبان فارسی

  • عنوان پروژه: ابزارهای پردازش زبان فارسی (پژوهش و تحقیق در ابزارهای تشخیص­دهنده موجودیت اسمی در زبان طبیعی و ارائه یک نمونه آزمایشگاهی برای زبان فارسی)
  • مجری: پردیس دانشکده­های فنی دانشگاه تهران
    • تاریخ شروع: مرداد ۱۳۹۵
    • تاریخ پایان: مرداد ۱۳۹۶
  • وضعیت: خاتمه‌یافته
  • کلمات کلیدی: تشخیص موجودیت‌های اسمی، تولید مجموعه داده موجودیت‌های اسمی، تشخیص قانون‌محور موجودیت‌های اسمی، مدل آماری تشخیص موجودیت‌های اسمی
  • خلاصه پروژه:
    تشخیص موجودیت‌های اسمی یکی از ابزارهای میانی برای تحلیل متون بوده و به‌طور گسترده در زمینه‌های پردازش زبان طبیعی و بازیابی اطلاعات مورد استفاده قرار می‌گیرد. این ابزار خود پایه‌ای برای برخی از ابزارهای دیگر پردازش متن مثل تعیین مرجع ضمایر می‌باشد. موجودیت‌های اسمی انواع گوناگونی دارند که مواردی که در این پروژه بر روی آن‌ها تمرکز می‌شود عبارتند از: مکان‌ها، افراد، سازمان‌ها، پول‌ها، درصدها، تاریخ‌ها، و زمان‌ها. در این پروژه، مجموعه برچسب‌‌خورده موجودیت‌های اسمی با عنوان پیما که شامل بیش از ۷۰۰ سند خبری است تهیه شده است. برجسب‌زنی این اسناد بر اساس شیوه‌نامه‌ای که در با بررسی ‌شیوه‌نامه‌های انگلیسی و انطباق آن با زبان فارسی تدوین گردیده است. با بررسی روش‌های مختلف قاعده‌محور، آماری و شبکه‌های عصبی در نهایت سیستم آماری برچسب‌رنی موجودیت‌های اسمی در زبان فارسی با کیفیت بالا توسعه و پیاده‌سازی شده است. این سیستم به صورت نسخه دستکتاپ، وب‌سرویس و دموی وب در دسترس قرار گرفته است.
تشخیص موجودیت‌های اسمی که یکی از حوزه‌های پژوهشی پردازش زبان طبیعی و بازیابی اطلاعات محسوب می‌شود، به روش‌هایی می‌پردازد که شناسایی موجودیت‌های اسمی را در متون ممکن می‌سازد. از مهم‌ترین انواع موجودیت‌های اسمی می‌توان به اسامی افراد، سازمان‌ها، مکان‌ها، پول، درصد، تاریخ، و زمان اشاره کرد. سیستم‌های تشخیص موجودیت اسمی موجودیت‌های یک متن را شناسایی کرده و آن‌ها را در یکی از انواع مشخص طبقه‌بندی ‌می‌کنند. تشخیص موجودیت‌های اسمی کاربردهای فراوانی در سیستم‌های استخراج اطلاعات، سیستم‌های پرسش و پاسخ، طبقه‌بندی متون، خلاصه‌سازی متون، و بهینه‌سازی جستجو دارد. اگرچه تحقیقاتی که در تشخیص موجودیت‌های اسمی در زبان‌های دیگر انجام شده وسیع بوده و نتایج قابل قبولی نیز حاصل شده است، فعالیت‌های انجام‌شده در این زمینه در زبان فارسی چندان گسترده نبوده و نتایج ارائه‌شده پاسخ‌گوی نیازها نیست. به همین دلیل پروژه « ابزارهای پردازش زبان فارسی (پژوهش و تحقیق در ابزارهای تشخیص‌دهنده موجودیت اسمی در زبان طبیعی و ارائه یک نمونه آزمایشگاهی برای زبان فارسی)» با هدف برآورده کردن بخشی از نیازهای سیستم‌های پردازشی و تحلیلی در زبان فارسی تعریف شد. دستاوردهای این پروژه است شیوه‌نامه برچسب‌زنی موجودیت‌های اسمی، پیکره موجودیت‌های اسمی و سیستم تشخیص موجودیت‌ها در زبان فارسی است. سیستم برچسب‌زنی موجودیت‌های اسمی با کیفیت ۸۴٪ به صورت نسخه دسکتاپ، وب‌سرویس و دموی وب در دسترس قرار دارد.

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد