گراف دانش فارسی

گراف دانش فارسی

  • عنوان پروژه: ایجاد گراف دانش فارسی
  • مجری: دانشگاه علم‌وصنعت
    • تاریخ شروع: تیر ۱۳۹۵
    • تاریخ پایان: تیر ۱۳۹۶
  • وضعیت: خاتمه‌یافته
  • کلمات کلیدی: گراف دانش، پایگاه دانش، وب معنایی، RDF، پردازش زبان طبیعی
  • خلاصه پروژه:
    گراف دانش مجموعه بزرگی از موجودیت‌ها و ارتباط معنایی بین آنهاست که یک پایگاه دانش پویا را تشکیل می‌دهد. گراف دانش فارسی با بیش از ۴۰۰هزار موجودیت زبان فارسی و هفت میلیون رابطه ایجاد شده است. با توجه به این که این گراف یک گراف بین دامنه‌ای است در حوزه‌های متنوع اشخاص مشهور، مکان‌های مهم، سازمان‌ها و شرکت‌ها، آثار ادبی و هنری، گونه‌های زیستی شامل گیاهان و حیوانات، رویدادها، زیست‌شناسی و اخترشناسی دارای اطلاعات غنی است. از نوآوری‌های این محصول، استخراج اطلاعات از متن خام است. به طوریکه ۲۰۰ هزار رابطه از متن خبر ی و همچنین مقالات ویکی‌پدیا به گراف افزوده شده است. از مهم‌ترین مولفه‌های این محصول می‌توان به سامانه جستجو روی گراف دانش اشاره نمود که با استفاده از آن می‌توان به موتورهای جستجو خدمت‌های ارزنده‌ای را ارائه نمود. به طوری که قابلیت جستجو روی پرسش‌های پرکاربرد دنیای وب وجود دارد.
«گراف دانش» یک پایگاه دانش حاوی اطلاعات معنایی شامل موجودیت‌های مختلف و روابط بین آن‌هاست که می‌تواند به طور موثری برای جستجو بر روی اطلاعات معنایی در جویشگرها و سایر سامانه‌های اطلاعاتی مورد استفاده قرار گیرد. ایده ایجاد گراف دانش از مدتها قبل وجود داشت، ولی ایجاد یک سامانه بزرگ شامل موجودیت‌ها و ارتباط آن‌ها به نحوی که بتواند خروجی مناسبی را به کاربران عرضه کند، نخستین بار توسط موتور جستجوی گوگل مطرح شد. وجود گراف دانش به کاربران موتور جستجو کمک می‌کند که علاوه بر نتایج اصلی جستجو، اطلاعات مهم دیگری را نیز برای کاربران نمایش دهد و از این طریق به آن‌ها در یافتن اطلاعات مناسب کمک کند. پروژه ایجاد گراف دانش فارسی، به طور متناوب اطلاعات موجود در ویکی‌پدیا را دریافت کرده و آن‌ها به شکل مناسبی در پایگاه دانش ذخیره می‌کند. تمام موجودیت‌ها در پایگاه دانش، دارای یک URI هستند. همچنین رابطه بین موجودیت‌ها نیز نگاشت شده و استاندارد شده‌اند. برای مثال رابطه شهر محل تولد، زادگاه و تمام رابطه‌های هم معنای آن‌ها دارای یک URI مشخص هستند. گراف دانش فارسی علاوه بر اطلاعات موجود در ویکی‌پدیا، اطلاعاتی را از تعداد معدودی از جداول تحت وب و متن‌های خام خبری در خود جای داده است، اما کماکان منبع اصلی داده‌ها ویکی‌پدیا است. همچنین مکانیزم‌هایی برای تایید سه‌تایی‌های موجود در گراف دانش توسط افراد خبره درون این سامانه تعبیه شده است. نزدیک‌ترین پروژه‌های خارجی که گراف دانش به آن‌ها شباهت دارد عبارتند از DBPedia و NELL.

ارتباط با ما

  • نشانی: تهران، خیابان کارگر شمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۹۵۷
  • رایانامه: parsigan@itrc.ac.ir

خبرنامه

عضویت در خبرنامه پارسیگان جهت دریافت آخرین اطلاعات و جدیدترین فایل‌ها

درباره پارسیگان

پارسیگان مجموعه‌ای غنی از دادگان، کدها و مستندات خروجی پروژه‌های اجرا شده در طرح جویشگر است که به صورت عمومی در راستای سیاست‌های پژوهشگاه ارتباطات و فناوری اطلاعات و همچنین طرح جویشگر بومی در اختیار عموم قرار گرفته است.

تمامی حقوق متعلق به طرح جویشگر بومی می‌باشد