گزارش پایانی پروژه

  • پروژه: مرجع گزینی
  • نوع گزارش: گزارش فنی
  • کلمات کلیدی: مرجع‌گزینی، جویشگر بومی، پیکره کلمات هم‌مرجع، معیارهای ارزیابی، ابزارهای پایه پردازش زبان فارسی.
  • نویسندگان: شادی حسین نژاد
  • خلاصه: مرجع‌یابی یا مرجع‌گزینی یا پیدا کردن کلمات هم‌مرجع در متن یکی از وظایف مهم در پردازش زبان طبیعی است. دو کلمه زمانی هم‌مرجع هستند که به موجودیت واحدی در متن یا جهان حقیقی ارجاع بدهند. مرجع‌گزینی را می‌توان با روش‌های متفاوتی انجام داد. این روش‌ها شامل روش‌های قاعده‌مند مبتنی بر قوانین مکاشفه‌ای و روش‌های یادگیری ماشین باسپرست یا بی‌سرپرست هستند. در سال‌های اخیر استفاده از پیکره‌های برچسب‌گذاری شده در این زمینه رواج زیادی داشته است و منجر به تولید نتایج مناسبی هم شده است. در پروژه مرجع‌گزینی حاضر، یک پیکره از کلمات هم‌مرجع تولید شده است که بیش از یک میلیون کلمه دارد. همچنین این پیکره دارای برچسب موجودیت نامدار نیز می‌باشد. برچسب‌های موجودیت نامدار پیکره شامل 7 برچسب است و در بخش مرجع‌گزینی تمام گروه‌های اسمی، ضمایر و موجودیت‌های نامدار برچسب‌گذاری شده‌اند. با استفاده از این پیکره ابزار مرجع‌گزینی تولید شده است که دقت آن برروی داده‌های تست در حدود 60 درصد است.
نسخهتاریخ انتشارلینکدفعات دانلود
۱۲۲ دی ۱۳۹۶دریافت سند۱۰

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد