مرجع گزینی

مرجع گزینی

  • عنوان پروژه: ابزارهای پردازش زبان فارسی (مرجع گزینی)
  • مجری: پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی
    • تاریخ شروع: مرداد ۱۳۹۵
    • تاریخ پایان: مرداد ۱۳۹۶
  • وضعیت: خاتمه‌یافته
  • کلمات کلیدی: مرجع‌گزینی، جویشگر بومی، پیکره کلمات هم‌مرجع، ابزارهای تولید پیکره
  • خلاصه پروژه:
    مرجع‌یابی یا مرجع‌گزینی یا پیدا کردن کلمات هم‌مرجع در متن یکی از وظایف مهم در پردازش زبان طبیعی است. دو کلمه زمانی هم‌مرجع هستند که به موجودیت واحدی در متن یا جهان حقیقی ارجاع بدهند. مرجع‌گزینی را می‌توان با روش‌های متفاوتی انجام داد. این روش‌ها شامل روش‌های قاعده‌مند مبتنی بر قوانین مکاشفه‌ای و روش‌های یادگیری ماشین باسپرست یا بی‌سرپرست هستند. در سال‌های اخیر استفاده از پیکره‌های برچسب‌گذاری شده در این زمینه رواج زیادی داشته است و منجر به تولید نتایج مناسبی هم شده است. در پروژه مرجع‌گزینی حاضر، یک پیکره از کلمات هم‌مرجع تولید شده است که بیش از یک میلیون کلمه دارد. همچنین این پیکره دارای برچسب موجودیت نامدار نیز می‌باشد. برچسب‌های موجودیت نامدار پیکره شامل 7 برچسب است و در بخش مرجع‌گزینی تمام گروه‌های اسمی، ضمایر و موجودیت‌های نامدار برچسب‌گذاری شده‌اند. با استفاده از این پیکره ابزار مرجع‌گزینی تولید شده است که دقت آن برروی داده‌های تست در حدود 60 درصد است.
تشخیص عبارت‌های هم‌مرجع، یکی از نیازهای مهم در پردازش زبان طبیعی است. لذا پروژه مرجع‌گزینی با هدف دستیابی به موارد بالا و تاثیرگذاری مثبت در طرح جویشگر بومی انجام شده است. در این پروژه دادگانی با حجم بیش از یک میلیون کلمه (با برچسب کلمات هم مرجع) تولید شده است که از این مقدار 600 هزار کلمه آن دارای برچسب موجودیت نامدار (با 7 برچسب) است. همچنین سامانه تشخیص کلمات هم مرجع نیز تولید شده است. این سامانه قادر به تشخیص مرجع مشترک ضمایر، موجودیتهای نامدار و گروه های اسمی است.

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد