پردازش زبان طبیعی NLP
-
زیرنویس فارسی و انگلیسی
- زندگی فعال
- 19 اپیزود
- 1 ساعت و 41 دقیقه
- سطح متوسط
در این دوره چه چیز هایی می آموزید؟
اپیزودها
•NLP: پردازش زبان طبیعی•این یک زیرشاخه از زبانشناسی، علوم کامپیوتر، مهندسی اطلاعات و هوش مصنوعی است•به تعاملات بین کامپیوترها و زبانهای انسانی میپردازد•نحوه برنامهریزی کامپیوترها برای پردازش و تحلیل مقادیر زیاد دادههای زبان طبیعی•کامپیوترها میتوانند متن را بخوانند، گفتار را بشنوند، آن را تفسیر کنند، احساسات را اندازهگیری کنند و تشخیص دهند که کدام بخشها مهم هستند•برنامهها: تشخیص کاراکتر نوری (OCR)، تشخیص گفتار، ترجمه ماشینی و چتباتها•الگوریتمهای یادگیری ماشین میلیونها نمونه متن که توسط انسانها نوشته شدهاند را مطالعه میکنند•الگوریتمها به درک زمینه کمک میکنند•این به تمایز بین معانی متون مختلف کمک میکند
•وظیفه تقسیم یک متن به بخشهایی که به آنها توکن گفته میشودانواع:•توکن سازی کلمات•توکن سازی جملات
•کلمات توقف، کلمات انگلیسی هستند که معنای زیادی به یک جمله اضافه نمیکنند.•این کلمات میتوانند بدون از دست دادن معنای جمله به راحتی نادیده گرفته شوند.•یک کلمه توقف، کلمهای است که به طور معمول استفاده میشود (مانند "the"، "a"، "an"، "in") و موتور جستجو طوری برنامهریزی شده است که آن را نادیده بگیرد.
•یک n-gram دنبالهای متوالی از n مورد از یک نمونه متن یا گفتار است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت میکنیم.
• ریشهیابی (Stemming) فرایند کاهش کلمات صرفشده (یا گاهی مشتق شده) به ریشه، شکل پایه یا فرم اصلی آنهاست.به عنوان مثال: موتور جستجو
• تشخیص معنای یک کلمه (یعنی معانی آن) در یک جمله، هنگامی که آن کلمه معانی متعددی دارد، به عنوان WSD شناخته میشود.
• راهی ساده برای توکنسازی یک مجموعه از اسناد متنی و ساخت واژگانی از کلمات شناخته شده ارائه میدهد، و همچنین برای کدگذاری اسناد جدید با استفاده از آن واژگان.• از همان وکتورایزر میتوان برای اسنادی که شامل کلماتی هستند که در واژگان گنجانده نشدهاند استفاده کرد. این کلمات نادیده گرفته شده و هیچ تعدادی در وکتور حاصل داده نمیشود.• مسئله: ظهور "the"• هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد.• توالی کلمات حفظ نمیشود.
•نمرات فراوانی کلمات TF-IDF، نمرات فراوانی هستند که سعی دارند کلماتی را که بیشتر جالب هستند، مانند مواردی که در یک سند بسیار تکرار شدهاند اما در سندهای دیگر کمتر دیده میشوند، هایلایت کنند.•اهمیت در مقیاس ۰ و ۱ است.فراوانی کلمه: این خلاصهای است از اینکه یک کلمه خاص چند بار در یک سند ظاهر میشود.فراوانی معکوس سند: این مواردی که در سندهای مختلف زیاد ظاهر میشوند را کاهش میدهد.مزایا:•وکتور ویژگیها به مراتب در اندازه قابل مدیریتتر است.•فراوانی و مرتبط بودن ثبت شده است.معایب:•با این حال، زمینه هنوز ثبت نشده است.
•مشکل با شمارشها و فراوانیها – واژگان میتواند بسیار بزرگ شود مراهحل این است که از یک هش یکطرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•هیچ واژهنامهای مورد نیاز نیست و میتوانید یک بردار ثابت با طول دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل کدگذاری به یک کلمه وجود ندارد
•وظیفه تقسیم یک متن به قطعاتی که به آن توکن گفته میشودانواع:•توکن سازی کلمات•توکن سازی جملات
N-Grams یک دنباله پیوسته از n آیتم از یک نمونه متن یا گفتار معین است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت میکنیم.
• ریشهزنی فرآیند کاهش کلمات صرف شده (یا گاهی مشتق شده) به ریشه، پایه یا فرم اصلی آنها است.به عنوان مثال: موتور جستجو
•تعیین معانی واژه (یعنی مفهوم) در یک جمله در حالیکه واژه دارای معانی متعدد است، به عنوان WSD شناخته میشود.
• راهی ساده برای توکنسازی مجموعهای از اسناد متنی و ایجاد واژگان از کلمات شناخته شده فراهم میکند، و همچنین امکان رمزگذاری اسناد جدید با استفاده از آن واژگان را میدهد. • میتوان از همان بردارکننده بر روی اسنادی که حاوی کلماتی هستند که در واژگان موجود نیستند استفاده کرد. این کلمات نادیده گرفته میشوند و هیچ شماری در نتیجهی بردار داده نمیشود. • مشکل: ظاهر شدن "the" • هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد • ترتیب کلمات حفظ نمیشود
•TF-IDF نمرات فراوانی کلمات هستند که سعی میکنند کلماتی را که جالبتر هستند، مانند کلماتی که در یک سند فراوانند اما در بین اسناد دیگر کمتر دیده میشوند، هایلایت کنند.•اهمیت این معیار در مقیاس ۰ و ۱ استفراوانی کلمه: این مورد خلاصهای از این است که یک کلمه خاص چند بار در یک سند ظاهر میشود.فراوانی معکوس سند: این مورد کلماتی که در اسناد مختلف زیاد ظاهر میشوند را کاهش میدهد.مزایا:•بردار ویژگی به لحاظ اندازه بسیار قابل کنترلتر است•فراوانی و ارتباط به خوبی ثبت شدهاندمعایب:•زمینه هنوز به خوبی ثبت نشده است
•مشکل با تعداد و فراوانی - دایره واژگان میتواند بسیار بزرگ شود•راه حل این است که از یک هش یک طرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•نیازی به دایره واژگان نیست و میتوانید یک بردار با طول ثابت و دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل مجدد کدگذاری به یک کلمه وجود ندارد
اکشن های دوره
توضیحات دوره
این دوره یک درک پایه از پردازش زبان طبیعی (NLP) را فراهم میکند. هر کسی میتواند برای این دوره ثبتنام کند. هیچ دانش پیشزمینهای از NLP لازم نیست. پردازش متن مانند توکنسازی، حذف کلمات توقف، ریشهیابی، انواع مختلف وکتورایزرها، تشخیص معنی کلمه (WSD) و غیره بهطور مفصل با کد پایتون توضیح داده شده است. همچنین تفاوت بین CountVectorizer و Hashing در فیلتر اسپم مورد بررسی قرار میگیرد.
✅ این دوره برای چه کسانی مناسب است؟
افرادی که مایل به یادگیری NLP هستند و مشتاقانه منتظر ایجاد شغل در ماشین لرنینگ هستند.
✅ این دوره چه پیشنیازهایی دارد؟
- درک اولیه پایتون
- یک لپ تاپ با Python IDE نصب شده است.
- درک یادگیری ماشینی در مطالعه موردی مفید خواهد بود اما اجباری نیست.
دانشجویان دیگر خریده اند
- 13 اپیزود
- 1 ساعت و 6 دقیقه
- سطح مقدماتی
- 1 اپیزود
- 37 دقیقه
- سطح مقدماتی
- 1 اپیزود
- 23 دقیقه
- 25 اپیزود
- 1 ساعت و 18 دقیقه
- سطح مقدماتی
- 10 جلسه
- 15 ساعت
- سطح مقدماتی
- 67 اپیزود
- 12 ساعت و 18 دقیقه
استاد دوره
کامنت ها
-
19 اپیزود در مجموع 1 ساعت و 41 دقیقه
-
46 دانشجو
-
قابل پخش در همه ساعات شبانه روز
-
قابل استفاده روی تلفن همراه و رایانه
-
گواهینامه پایان دوره ماراد
کامنت شما با موفقیت ارسال شد
ثبت گزارش دوره
برای ارسال گزارش میبایست ابتدا وارد شوید
گزارش شما با موفقیت ارسال شد
ورود / ثبت نام
برای فالو کردن استاد ابتدا وارد شوید
ثبت نام در دوره
برای مشاهده این اپیزود باید در دوره ثبت نام کنید.