مستندات فاز دوم پروژه گراف دانش

  • پروژه: گراف دانش فارسی
  • نوع گزارش: سند مطالعاتی
  • کلمات کلیدی: گراف دانش، پایگاه‌دانش، چارچوب توصیف منبع، ذخیره‌سازی سه‌تایی، وب معنایی
  • نویسندگان: دکتر بهروز مینایی بیدگلی، مجید عسگری بیدهندی، علی هادیان، سید محمدباقر سجادی، ابوالفضل مهدی‌زاده، لیلا اسکویی، نسیم دمیرچی، انسیه همتان، یوسف علیزاده، مرتضی خالقی، راضیه فرجام‌فرد، محمد عبدوس، مصطفی مهدوی، محسن رحیمی، احسان شهشهانی. با تشکر از دکتر صمد پایدار
  • خلاصه: در این مستند، گزارشی از مهم‌ترین فعالیت‌های انجام‌شده در فاز دوم پروژه گراف دانش فارسی به‌صورت اجمالی ارائه می‌گردد. ساختار کلی گراف دانش در این فاز طراحی و پیاده‌سازی شده است به‌طوری‌که در فاز سوم تنها بهبود فعالیت‌های انجام‌شده در این فاز، مدنظر قرار خواهد گرفت؛ بنابراین بخشی از قسمت‌های سیستم گراف دانش در حال حاضر به‌صورت اولیه بوده و در حال تکمیل شدن است. بدیهی است که در این فاز، پیاده‌سازی در اولویت قرار گرفته و بهبود کارایی سیستم به فاز آتی موکول شده است. عمده فعالیت‌ها بر اساس پیشنهادهای مطرح‌شده در مستند نهایی فاز اول انجام شده است. در برخی از فعالیت‌ها تغییرات کوچکی در معماری و یا نحوه پیاده‌سازی انجام شده است که به‌تفصیل توضیح داده خواهد شد. در حال حاضر، اطلاعات موجود در جعبه‌های اطلاعاتی ویکی‌پدیای فارسی به‌طور کامل استخراج و به سه‌تایی تبدیل شده است. هستان‌شناسی اولیه برگرفته از دی‌بی‌پدیا فراهم شده است. همچنین نگاشت میان الگوها و خصیصه‌های پرتکرار ویکی‌پدیا به هستان‌شناسی به‌صورت خودکار، نیمه‌خودکار و کاملاً دستی برقرار شده است. روش استخراج آزاد اطلاعات مشخص و به‌صورت اولیه پیاده‌سازی شده است. گرچه سیستم «تأیید سه‌تایی توسط خبرگان» توسعه داده شده است اما به‌صورت گسترده توسط خبرگان مورد استفاده قرار نگرفته است. ساختار ذخیره سه‌تایی‌ها در مخزن ویرتوسو در دو سطح داده و فراداده ایجاد شده است و هم‌اکنون ذخیره و بازیابی سه‌تایی‌ها از طریق این پایگاه‌داده میسر است. در قسمت پردازش جستجو که بخش مهمی از این فاز را به خود اختصاص داده است، پردازش لاگ جویشگر فارسی به‌طور کامل انجام شده به‌طوری‌که پرس‌وجوها و موجودیت‌های پرکاربرد بر هستان‌شناسی ارائه‌شده تعیین گردیده‌اند. همچنین روشی ارائه شده است تا با تغییر مجموعه‌داده ورودی، بتوان فرآیند تحلیل لاگ را انجام داد. در حال حاضر ارتباط سامانه پردازش معنایی اطلاعات با گراف دانش برقرار شده است.
نسخهتاریخ انتشارلینکدفعات دانلود
۲۲۸ خرداد ۱۳۹۶دریافت سند۲

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد