مستندات فاز سوم گراف دانش

  • پروژه: گراف دانش فارسی
  • نوع گزارش: سند مطالعاتی
  • کلمات کلیدی: گراف دانش، پایگاه‌دانش، چارچوب توصیف منبع، ذخیره‌سازی سه‌تایی، وب معنایی
  • نویسندگان: دکتر بهروز مینایی بیدگلی، مجید عسگری بیدهندی، علی هادیان، سید محمدباقر سجادی، حسین خادمی خالدی، ابوالفضل مهدی‌زاده، لیلا اسکویی، نسیم دمیرچی، انسیه همتان، یوسف علیزاده، مرتضی خالقی، راضیه فرجام‌فرد، محمد عبدوس، مصطفی مهدوی، محسن رحیمی، احسان شهشهانی، ابوالفضل کاظمی، دکتر صمد پایدار
  • خلاصه: در این مستند، گزارشی از مهم‌ترین فعالیت‌های انجام‌شده در فاز نهایی پروژه گراف دانش فارسی ارائه شده است. در فاز سوم عمدتاً بهبود فعالیت‌های انجام‌شده در فاز قبلی، مدنظر بوده است؛ و قسمت‌های زیادی از سامانه گراف دانش تکمیل شده است. همچنین، بهبود کیفی و کمی سامانه‌ها مورد توجه قرار گرفته و تمهیدات مختلفی در این زمینه در سامانه لحاظ شده‌اند. در فاز سوم، اطلاعات موجود در جعبه‌های اطلاعاتی ویکی‌پدیای فارسی به‌طور کامل استخراج و به ساختار RDF تبدیل شده است. همچنین تعدادی جدول از وب انتخاب شده و داده‌های آن‌ها به‌صورت نگاشت شده در پایگاه‌دانش اضافه شده است. داده‌های هستان‌شناسی نهایی و تا حد نیاز سفارشی شده است. همچنین نگاشت میان الگوها و خصیصه‌های پرتکرار ویکی‌پدیا به هستان‌شناسی به‌صورت خودکار، نیمه‌خودکار و کاملاً دستی برقرار شده است و بهبودهای چشم‌گیری روی آن در فاز نهایی صورت گرفته است. علیرغم در اختیار نداشتن داده‌های کامل نسخه جدید فارس‌نت، اتصال بیش از ۵۰۰۰ موجودیت نیز به فارس‌نت نهایی شده است. استخراج سه‌تایی از متن خام به سه روش متفاوت، یعنی روش مبتنی بر قاعده، روش نظارت از راه دور و روش الگوهای وابستگی پیاده‌سازی و ارزیابی شده است. سامانه «تأیید سه‌تایی توسط خبرگان» توسعه داده شده است و بخشی از سه‌تایی‌های استخراج‌شده از ویکی‌پدیا مورد بررسی قرار گرفته‌اند. ساختار ذخیره‌ی داده‌ها در دو سطح فراداده و داده ایجاد شده و هم‌اکنون ذخیره و بازیابی سه‌تایی‌ها از طریق پایگاه‌داده ویرتوسو میسر است. همچنین یک بستر امن برای کار افراد خبره با سامانه فراهم شده است. در قسمت پردازش جستجو، امکان تشخیص موجودیت‌ها و خصیصه‌ها از پرس‌وجوی کاربر فراهم شده است و موجودیت‌های تشخیص داده‌شده، جهت ساخت و اجرای پرس‌وجو مورد استفاده قرار می‌گیرند. این موجودیت‌ها تا حد امکان رفع ابهام شده‌اند. همچنین سامانه طوری طراحی و پیاده‌سازی شده تا از به‌روزرسانی داده‌ها پشتیبانی شود. لاگ استخراج‌شده از یک موتور جستجو مورد تحلیل و ارزیابی قرار گرفته و پرس‌وجوها و موجودیت‌های پرکاربرد بر اساس هستان‌شناسی ارائه‌شده، تعیین گردیده‌اند و از این نتایج به‌عنوان مرجع جهت تعیین الگوهای پرس‌وجو و ارزیابی سامانه استفاده شده است. یک سامانه جهت ارزیابی دقت جستجوگر طراحی شده است. از طرفی، بهبودهای کمی مختلفی بر روی کارایی (سرعت) جستجو صورت گرفته که ازجمله آن‌ها می‌توان به پیش‌واکشی، استفاده از ذخیره‌گاه در سطوح مختلف و بازبینی الگوریتم‌های پایه اشاره کرد. همچنین، بازخوردهای مختلفی از کاربران دریافت شده که در تصحیح سامانه جستجوگر مورد استفاده قرار گرفته است. علاوه بر جستجوگر، سامانه دیگری نیز به‌منظور پیشنهاد موجودیت‌های مرتبط طراحی شده که مکمل جستجوگر به حساب می‌آید.
نسخهتاریخ انتشارلینکدفعات دانلود
۲۲۲ مرداد ۱۳۹۶دریافت سند۲

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد