جای خالی وب معنایی در فضای وب فارسی

ماه رمضان هر سال فرصت خوبیه که یک کم به وب فارسی برگردم و یه مینی پروژه انجام بدم که خیلی هم دور نباشم از وب فارسی (که البته با دغدغه های کاری خارج از کشور کار سختیه!). مدت هاست که دارم روی وب داده ها (Web of Data) یا همون وب معنایی (Semantic Web) کار می کنم و فکر می کنم که جای خالی آن کاملا در فضای وب فارسی احساس می شود. قبل از هر چیز مقدمه ای در مورد وب معنایی:

وب داده ها چیست؟

وب معنایی (Semantic Web) یا وب داده ها (Web of Data)  مجموعه ای از استانداردها و الگوهای موفق برای به اشتراک گذاری داده ها و معانی آن ها بر روی وب می باشد.هدف از وب داده ها، آسان سازی دسترسی به داده ها و همچنین ایجاد برنامه های کاربردی نوآورانه دانش محور می باشد که با یکپارچه سازی جزایر داده ای مختلف،  اطلاعات و سرویس های جدیدی را برای کاربران فراهم می آورند. مدلهای نمایش داده ها  در وب معنایی نه تنها به انسان ها اجازه بهره برداری موثرتر از داده ها را می دهد بلکه به ماشین ها هم این امکان را می دهد که داده های عظیم روی وب را  پردازش کنند.
در زیر نگاهی دقیق تر به مولفه ای تشکیل دهنده وب  داده ها می اندازیم:

– مجموعه ای از استانداردها

قبل از اینکه آقای تیم برنرزلی (Tim Berners-Lee) وب گسترده جهانی (World Wide Web) را ابداع کند، سیستم های ابر متن (Hypertext) قدرتمندتر دیگری هم وجود داشتند! اما علت موفقیت سیستم وب معرفی شده توسط اوچه بود؟

آقای برنرزلی سیستم وب خود را بر مبنای خصوصیاتی ساده ساخت که بصورت استانداردهای عمومی منتشر شدند. این مجموعه استانداردهای عمومی قابل دسترس به افراد این اجازه را داد که آزادانه و به راحتی سیستم او را پیاده سازی کنند (برای مثال: سرویس دهنده های وب، مرورگرهای وب و یا صفحات وب مختلف). بدین ترتیب سیستم پیشنهادی او روز بروز گسترده تر شد و در نهایت تبدیل به بزرگترین سیستم ابرمتن شد.

مجمع وب جهانی (W3C) که استانداردهای وب را  توسعه و گسترش می دهد، در حال حاضر استانداردهای وب داده ها را نیز پشتیبانی می کند. بنابر این، هر محصول و یا پروژه ای که با معنای داده ها و داده های ساختاریافته کار می کند، اگر از این استانداردها تبعیت نکند، نمی تواند بخشی از وب داده ها شود (همانطور که برای اتصال به صفحات وب جهانی، استفاده از پروتکل HTTP ضروری می باشد). استانداردهای اصلی وب داده ها  RDF و OWL و SPARQL  می باشند (اطلاعات بیشتر در مورد استانداردهای وب داده ها).

– استانداردها و الگوهای موفق برای به اشتراک گذاری داده ها روی وب برای استفاده توسط برنامه های کاربردی

بخش عمده وب کنونی برای به اشتراک گذاری صفحات قابل خواندن توسط انسان ها ایجاد شده است برای مثال اگر قصد خرید بلیط هواپیما از تهران به مشهد را دارید باید به وب سایت شرکت هواپیمایی مثل ایران ایر سری بزنید، فرمی شامل اطلاعات پرواز را پر کنید و سپس نتایج به دست آمده را بخوانید و در نهایت بلیط مورد نظر خود را بخرید. در حال حاضر،  وب سایت هایی که امکان مقایسه قیمت بلیط پروازهای ایرلاین های مختلف را می دهند، معمولا از طریق سرویس های وب اختصاصی (Web services)  و یا توسط پردازش محتوای شرکت های هواپیمایی مختلف (Data scraping) این کار را انجام می دهند. برای استفاده از سرویس های وب و یا برای نوشتن  پردازشگرهای محتوا، برنامه نویس نیاز به تحلیل دستی واسط سرویس های مورد نظر و یا ساختار وب سایت های مختلف برای دسترسی به اطلاعات دارد که کاری زمانبر و هزینه بر می باشد. اگر تغییر کوچکی در این سرویس ها و یا ساختار وب سایت ها داده شود، برنامه نویس مجبور است برنامه کاربردی خود را برای در نظر گرفتن این تغییرات، تغییر دهد!

وب داده ها، مجموعه ای از استانداردها و الگوهای موفق برای به اشتراک گذاری داده ها در زیر ساخت وب را فراهم می آورد که منجر به شکل گیری  داده های مرتبط (Linked Data) می شود. بازیابی آسان اطلاعات روی وب داده ها، این امکان را به برنامه های کاربردی می دهد که بدون نیاز به سربار تحلیل و پردازش محتوای وب سایت ها  و یا  واسط سرویس های وب، به داده های موجود در وب دسترسی داشته باشند (برای مثال، برنامه تقویم شما بتواند به راحتی اطلاعات پرواز را از ایرلاین های مختلف دریافت و به همراه اطلاعات آب و هوای مبدا و مقصد نمایش دهد).

– معانی داده ها

اصول داده های وب مرتبط (Linked Data principles) به اشتراک گذاری داده ها را تسهیل می بخشد و استفاده از  URI ها به عنوان شناسه های یکپارچه برای منابع، زمینه معنایی (Semantics) مختصری  را درمورد منابع روی وب فراهم می آورد (برای مثال  حتی اگر معنای مفهوم n1789#concept را در آدرس http://www.nlai.ir/pb/n1789#concept  ندانیم، با داشتن URI به تنهایی، می توانیم بفهمیم که این مفهوم به سازمان‌ اسناد و كتابخانه‌ ملي‌ ايران‌ مربوط است). ذخیره سازی کامل معنا و مفهوم همه لغات روی وب برای فهم کامپیوترها کار راحت و ممکنی نیست اما وب داده ها این امکان را می دهد که توسط زبان هستان شناسی وب (Web Ontology Language) معانی با ارزشی را درمورد داده ها ذخیره کنیم که در نهایت منجر به بازیابی اطلاعات بیشتر در مورد داده ها گردد. برای مثال وقتی می دانیم که مفهوم “ازدواج” تقارنی است، یا “فروش” در مقابل “خرید” است یا “فرزند” زیر مجموعه “والدین” است، ما اطلاعات بیشتری را در مورد منابعی که این صفات را دارند و روابط بین آنها بدست می آوریم.

داده های خود را (در هر فرمتی) تحت یک مجوز باز روی وب قرار دهید.

★★ داده های خود را بصورت ساختار یافته به اشتراک بگذارید (مثلا Excel به جای عکس اسکن شده جدول داده ها).
★★★ از یک فرمت غیر اختصاصی استفاده کنید (مثلا CSV به جای Excel).
★★★★ از URI ها برای اشاره به داده ها استفاده کنید تا افراد دیگر بتوانند به داده های شما ارجاع دهند.
★★★★★ با لینک دادن و مرتبط کردن داده های خود با داده های دیگران برای داده ها زمینه فراهم سازید.


پنج ستاره طلایی برای داده های مرتبط باز (Linked Open Data)


وب معنایی در حال حاضر در جاهای مختلفی مثل کتابخانه ها، دولت ااکترونیکی، تجارت الکترونیکی، خبرگزاری ها (مثل وب داده ها در بی بی سی)ِ، آموزش الکترونیکی، جستجو و یکپارچه سازی داده ها، کاربرد دارد. اگر نگاهی به وضعیت وب داده های فارسی بیندازیم متوجه می شویم که داده های مورد استفاده در اکثر وب سایت های فارسی در آنها محبوس شده و امکان یکپارچه سازی و اسستنتاج روی داده ها کار خیلی دشواری است. یکی از جاهایی که وب داده ها کاربرد پیدا می کند، دولت الکترونیکی می باشد. اگر نگاهی به شاخص جهانی داده های باز دولتی بیندازید، به راحتی این عدم حضور را در مورد ایران متوجه می شوید.

یکی دیگر از زیر ساخت های اصلی وب معنایی، داشتن یک دانشنامه عمومی به عنوان مبنای وب داده های فارسی می باشد. در حال حاضر DBpedia نقش هاب را در وی داده ها ایفا می کند (اطلاعات ساختار یافته شده Wikipedia). در حال حاضر کار توسعه در کشورهای مختلف برای زبان های مختلف در حال انجام است. به نظر می رسد که اولین قدم برای راه اندازی وب داده های فارسی  تلاش برای بررسی کیفیت ویکی پدیای فارسی و همکاری برای تبدیل آن به دیبی پدیای فارسی می باشد(اگر مایل به همکاری در این زمینه هستید می توانید با من تماس بگیرید).

لزوم توسعه ابزارهای پردازش زبان طبیعی برای متون فارسی نیز یکی دیگر از زیر ساخت های وب داده های فارسی می باشد.


و اما مینی پرو‌ژه ماه رمضان من:

تصمیم گرفتم که یک دانشنامه موضوعی قرآن درست کنم که راحت تر بتونم معنا و مفاهیم آیه های قرآن را متوجه بشم. یه همکار مصری داشتم که چند وقت پیش دیتاستی رو برای قرآن معنایی درست کرده بود. نگاهی به سایت تبیان انداختم و دیدم که یک دانشنامه موضوعی قرآن روی سایتشون هست ولی خیلی به کار من نمیاد، چون دوست داشتم اطلاعاتی در مورد موضوعاتی که بیشتر در قرآن بحث شده اند و آیه هایی که بیشترین موضوعات را داشته اند هم داشته باشم. سایت تنزیل را که دیدم، به نظرم یکی از بهترین سایت های قرآنی دنیا اومد. معلومه که خیلی خوب روش کار کرده اند و داده ها به آسانی و در فرمت های مختلفی قابل دسترس است. با ترکیب کردن اطلاعات این منابع سعی کردم که یک برنامه کاربردی جدید درست کنم. برنامه نهایی رو می تونید اینجا ببینید و تمامی داده های ساختار یافته تولید شده از اینجا قابل دریافت است. مراحل ساخت برنامه هم به شرح زیر بود:

– داده های دانشنامه موضوعی قرآن تبیان را جمع آوری و بصورت JSON  ذخیره کردم.

– داده های سایت تنزیل را در مورد سوره ها، آیه ها و ترجمه های قرآن جمع آوری کردم.

– یک برنامه ساده نوشتم که از هستان شناسی های موجود  (Ontologies) استفاده کرده و اطلاعات را با توجه به نوع موجودیت های تعریف شده به فرمت RDFتبدیل می کرد.

– از HDT برای فشرده سازی داده های  RDF استفاده کردم.

ازHeroku برای میزبانی رایگان داده ها و برنامه کاربردی ایجاد شده استفاده کردم.

نور

برنامه ایجاد شده این امکان را میدهد که موضوعات مطرح شده در قرآن را دنبال کرده به آیات مربوطه رسیده و از طریق آیات دوباره به موضوعات مرتبط شده دیگر برگردید. ختم کلام، یک مرورگر موضوعی قرآن است! اطلاعات بیشتر در اینجا. به امید توسعه وب معنایی در فضای وب فارسی…


مراجع

  • DuCharme, Bob. Learning SPARQL. Edited by Simon St. Laurent and Jasmine Perez. : , 2011.
  • Antoniou, Grigoris and van Harmelen, Frank. A Semantic Web Primer, 2nd Edition. 2 : The MIT Press, 2008.
  • Lehmann, Jens, Isele, Robert, Jakob, Max, Jentzsch, Anja, Kontokostas, Dimitris, Mendes, Pablo N., Hellmann, Sebastian, Morsey, Mohamed, van Kleef, Patrick, Auer, Sören and Bizer, Christian. “DBpedia – A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia.” Semantic Web Journal 6 , no. 2 (2015): 167–195.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s