سه شنبه، ۲۸ فروردین، ۱۴۰۳ | Tuesday, 16 April , 2024

نخستين پيكرهٔ به‌روزشونده زبان فارسي رونمایی می‌شود

نسخه قابل پرینت
کد خبر:28113
چهارشنبه، ۱۲ مهر، ۱۳۹۶ | 11:10

نخستين پيكرهٔ به‌روزشونده زبان فارسي رونمایی می‌شود

پژوهشگران زبان‌شناسي دانشگاه شيراز براي نخستين بار پيكره‌اي را براي متون فارسي ايجاد كرده‌اند كه هر روز به صورت خودكار و متوازن به‌روزرساني مي‌شود.

به گزارش دیده‌بان علم ایران دكتر اميرسعيد مولودي، عضو هيئت علمي بخش زبان‌هاي خارجي و زبان‌شناسي دانشگاه شيراز و مدير پروژهٔ پيكرهٔ به‌روزشونده با بيان اين كه در اين پيكره استانداردهايي رعايت شده است كه پيش از اين در تهيهٔ پيكره‌هاي زبان فارسي مغفول مانده بود گفت: اين پيكره و جستجوگر آن ابزار پژوهشي مهمي براي تحقيقات زبان‌شناسي و ساير حوزه‌هاي علوم انساني است و علاوه بر اين براي اهداف پردازشي زبان فارسي نيز مي‌تواند مورد استفاده قرار گيرد.

وي افزود: ايدهٔ اوليهٔ اين طرح حدود دو سال پيش شكل گرفت و پس از انجام مراحل مطالعاتي در سال ۱۳۹۵، پياده‌سازي فاز نخست آن با تمركز بر متون خبري آغاز شد و ان‌شاءالله رونمايي از اين پيكره، مطابق برنامه‌ريزي‌هاي انجام‌گرفته، در هفتهٔ پژوهش امسال در آذرماه انجام خواهد شد.

مدير پروژهٔ پيكرهٔ به‌روزشونده با اشاره به اين نكته كه امروزه از پيكره‌هاي زباني تقريباً در تمامي حوزه‌هاي علوم انساني به طور عام و مطالعات زباني به طور خاص استفاده مي‌شود، گفت: بحث به‌روز بودن، توازن و نماينده بودن سه ويژگي مهم براي كارآمدي پيكره‌هاي زباني است كه در پروژۀ حاضر مورد توجه قرار گرفته است؛ بنابراين پيكرۀ حاضر از اين حيث كه تنوعات زباني را با انتخاب داده از ژانرهاي مختلف پوشش مي‌دهد، داده به ميزان مساوي از هر ژانر انتخاب مي‌شود و اينكه هر روز داده‌هاي آن افزايش مي‌يابد به‌ترتيب برخوردار از سه ويژگي نماينده‌ بودن، توازن و به‌‌روزشوندگي است.

 

به گفته وی به‌روزشونده بودن پيكرۀ حاضر به پژوهشگر اين امكان را مي‌دهد كه بتواند تغييرات زباني و حتي فرهنگي-جامعه‌شناختي را با استفاده از آن بررسي و تحليل کند.

وي همچنين خاطرنشان كرد كه در فاز نخست اين پروژه، هر روز متون خبري به صورت متوازن از ۶ حوزهٔ موضوعي و از خبرگزاري‌هاي مختلف به پيكره اضافه مي‌شود.

همچنين مرتضي رضائي شريف‌آبادي، دانشجوي دكتري زبان‌شناسي دانشگاه شيراز و مسئول فني پروژه با بيان اينكه مراحل اجرايي كار با همكاري تيمي قوي از مهندسان نرم‌افزار و با بهره‌گيري از جديدترين فناوري‌ها انجام شده است گفت: علاوه بر امكان دريافت دادهٔ پيكره، علاقه‌مندان مي‌توانند براي كاوش در پيكره از ابزار جستجوي برخط تهيه‌شده استفاده كنند.

وي افزود: تمام متون پيكره به صورت خودكار نرمال‌سازي و ريشه‌يابي مي‌شوند و برچسب اجزاي كلام به واژه‌هاي آن‌ها اختصاص مي‌يابد و براي توازن متون در سطح موضوع و زيرموضوع و همچنين توازن زماني نيز از روشي ابتكاري استفاده شده است.

رضائي تصريح كرد : هم‌اكنون پيكرهٔ به‌روزشونده و ابزار جستجوگر آن به صورت آزمايشي و با دسترسي محدود راه‌اندازي شده است .

گفتني است يكي از مهم­ترين گام ها در طراحي و ساخت سيستم هاي بازشناسي گفتار پيوسته با دايرۀ لغات بزرگ (LVCSR)، تعليم مدل زباني (Language Model) براي مدل كردن نحوۀ توالي كلمات در يك زبان خاصّ است. براي انجام چنين كاري، داشتن مقادير بسيار زيادي از دادگان متني (Text) از آن زبان همراه با برچسب هاي لازم ضروري است. از طرفي در بسياري از پروژه هاي تحقيقاتي در زمينۀ پردازش زبان طبيعي (Natural Language Processing)، چنين دادگاني مورد نياز است.

پيكره مجموعه‌‏اي از پاره‌‏هاي زباني است كه انتخاب و براساس معيارهاي زباني روشني مرتب مي‏‌شوند به ‏نحوي كه همچون نمونه‏ا ي از زبان به كار گرفته مي‏‌شوند.

پيكره شامل متن هاي پيوسته طبيعي است كه مي‌‏توان از آن اطلاعاتي درباره عناصر زباني، هم واژگاني هم غيرواژگاني (مانند سبك، نقطه ‏گذاري، دستور، گونة كاربردي)، به‏ دست آورد.

كشف واژه‌هايی خاص يا كاربردهايی خاص از آنها در پيكره‏‌اي از متن هاي معتبر كه متخصصان هر زمينه موضوعي آن را نوشته‌‏اند، بسيار ارزشمند است؛ زيرا نشان مي‏‌دهد اگرچه همه واژه ‏ها در فرهنگ‏هاي لغت ظاهر مي‏‌شوند، در بافت‏هايی خاص نمي‏‌توان از آنها استفاده كرد، حتي اگر جمله به لحاظ دستوري درست باشد.

انتهای پیام

مطالب مرتبط

کنفرانس ملي علوم پروتئيني و پپتيدي با حضور برنده نوبل شیمی در دانشگاه شیراز برگزار شد

برگزاری نخستین آزمون «تافل فارسی» برای دانشجویان غیرایرانی

نخستين پيكره به روزشونده پارسی رونمایی شد

بزرگداشت چهلمين سال فعالیت رصدخانه ابوريحان بيروني با حضور بنيانگذار نجوم جديد در ايران

نظر دهید

* نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند

سرخط خبرها