پردازش زبان طبیعی NLP

ضبط شده
دوره رایگان: پردازش زبان طبیعی (NLP)، پردازش متن، ماشین لرنینگ، فیلتر اسپم [پایتون]
امتیاز دوره
هنوز امتیاز ندارد
  • زیرنویس فارسی و انگلیسی
  • زندگی فعال
  • 19 اپیزود
  • 1 ساعت و 41 دقیقه
  • سطح متوسط
پردازش زبان طبیعی NLP

در این دوره چه چیز هایی می آموزید؟

متن‌های پردازش مختلف و پیاده‌سازی آن‌ها در پایتون چیستند؟
مطالعه موردی: نقش Hashing در فیلتر اسپم در مقایسه با Countvectorizer.

اپیزودها

اپیزود 1 پردازش زبان (NLP) چیست؟
5 دقیقه

•NLP: پردازش زبان طبیعی•این یک زیرشاخه از زبان‌شناسی، علوم کامپیوتر، مهندسی اطلاعات و هوش مصنوعی است•به تعاملات بین کامپیوترها و زبان‌های انسانی می‌پردازد•نحوه برنامه‌ریزی کامپیوترها برای پردازش و تحلیل مقادیر زیاد داده‌های زبان طبیعی•کامپیوترها می‌توانند متن را بخوانند، گفتار را بشنوند، آن را تفسیر کنند، احساسات را اندازه‌گیری کنند و تشخیص دهند که کدام بخش‌ها مهم هستند•برنامه‌ها: تشخیص کاراکتر نوری (OCR)، تشخیص گفتار، ترجمه ماشینی و چت‌بات‌ها•الگوریتم‌های یادگیری ماشین میلیون‌ها نمونه متن که توسط انسان‌ها نوشته شده‌اند را مطالعه می‌کنند•الگوریتم‌ها به درک زمینه کمک می‌کنند•این به تمایز بین معانی متون مختلف کمک می‌کند

اپیزود 2 "توکن‌سازی".
3 دقیقه

•وظیفه تقسیم یک متن به بخش‌هایی که به آن‌ها توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

اپیزود 3 حذف کلمات Stop
4 دقیقه

•کلمات توقف، کلمات انگلیسی هستند که معنای زیادی به یک جمله اضافه نمی‌کنند.•این کلمات می‌توانند بدون از دست دادن معنای جمله به راحتی نادیده گرفته شوند.•یک کلمه توقف، کلمه‌ای است که به طور معمول استفاده می‌شود (مانند "the"، "a"، "an"، "in") و موتور جستجو طوری برنامه‌ریزی شده است که آن را نادیده بگیرد.

•یک n-gram دنباله‌ای متوالی از n مورد از یک نمونه متن یا گفتار است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌یابی (Stemming) فرایند کاهش کلمات صرف‌شده (یا گاهی مشتق شده) به ریشه، شکل پایه یا فرم اصلی آنهاست.به عنوان مثال: موتور جستجو

• تشخیص معنای یک کلمه (یعنی معانی آن) در یک جمله، هنگامی که آن کلمه معانی متعددی دارد، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی یک مجموعه از اسناد متنی و ساخت واژگانی از کلمات شناخته شده ارائه می‌دهد، و همچنین برای کدگذاری اسناد جدید با استفاده از آن واژگان.• از همان وکتورایزر می‌توان برای اسنادی که شامل کلماتی هستند که در واژگان گنجانده نشده‌اند استفاده کرد. این کلمات نادیده گرفته شده و هیچ تعدادی در وکتور حاصل داده نمی‌شود.• مسئله: ظهور "the"• هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد.• توالی کلمات حفظ نمی‌شود.

•نمرات فراوانی کلمات TF-IDF، نمرات فراوانی هستند که سعی دارند کلماتی را که بیشتر جالب هستند، مانند مواردی که در یک سند بسیار تکرار شده‌اند اما در سندهای دیگر کمتر دیده می‌شوند، هایلایت کنند.•اهمیت در مقیاس ۰ و ۱ است.فراوانی کلمه: این خلاصه‌ای است از اینکه یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مواردی که در سندهای مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•وکتور ویژگی‌ها به مراتب در اندازه قابل مدیریت‌تر است.•فراوانی و مرتبط بودن ثبت شده است.معایب:•با این حال، زمینه هنوز ثبت نشده است.

•مشکل با شمارش‌ها و فراوانی‌ها – واژگان می‌تواند بسیار بزرگ شود مراه‌حل این است که از یک هش یک‌طرفه از کلمات برای تبدیل آن‌ها به اعداد صحیح استفاده کنیم•هیچ واژه‌نامه‌ای مورد نیاز نیست و می‌توانید یک بردار ثابت با طول دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل کدگذاری به یک کلمه وجود ندارد

•وظیفه تقسیم یک متن به قطعاتی که به آن توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

N-Grams یک دنباله پیوسته از n آیتم از یک نمونه متن یا گفتار معین است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌زنی فرآیند کاهش کلمات صرف شده (یا گاهی مشتق شده) به ریشه، پایه یا فرم اصلی آنها است.به عنوان مثال: موتور جستجو

•تعیین معانی واژه (یعنی مفهوم) در یک جمله در حالیکه واژه دارای معانی متعدد است، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی مجموعه‌ای از اسناد متنی و ایجاد واژگان از کلمات شناخته شده فراهم می‌کند، و همچنین امکان رمزگذاری اسناد جدید با استفاده از آن واژگان را می‌دهد. • می‌توان از همان بردارکننده بر روی اسنادی که حاوی کلماتی هستند که در واژگان موجود نیستند استفاده کرد. این کلمات نادیده گرفته می‌شوند و هیچ شماری در نتیجه‌ی بردار داده نمی‌شود. • مشکل: ظاهر شدن "the" • هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد • ترتیب کلمات حفظ نمی‌شود

•TF-IDF نمرات فراوانی کلمات هستند که سعی می‌کنند کلماتی را که جالب‌تر هستند، مانند کلماتی که در یک سند فراوانند اما در بین اسناد دیگر کم‌تر دیده می‌شوند، هایلایت کنند.•اهمیت این معیار در مقیاس ۰ و ۱ استفراوانی کلمه: این مورد خلاصه‌ای از این است که یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مورد کلماتی که در اسناد مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•بردار ویژگی به لحاظ اندازه بسیار قابل کنترل‌تر است•فراوانی و ارتباط به خوبی ثبت شده‌اندمعایب:•زمینه هنوز به خوبی ثبت نشده است

•مشکل با تعداد و فراوانی - دایره واژگان می‌تواند بسیار بزرگ شود•راه حل این است که از یک هش یک طرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•نیازی به دایره واژگان نیست و می‌توانید یک بردار با طول ثابت و دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل مجدد کدگذاری به یک کلمه وجود ندارد

توضیحات دوره

این دوره یک درک پایه از پردازش زبان طبیعی (NLP) را فراهم می‌کند. هر کسی می‌تواند برای این دوره ثبت‌نام کند. هیچ دانش پیش‌زمینه‌ای از NLP لازم نیست. پردازش متن مانند توکن‌سازی، حذف کلمات توقف، ریشه‌یابی، انواع مختلف وکتورایزرها، تشخیص معنی کلمه (WSD) و غیره به‌طور مفصل با کد پایتون توضیح داده شده است. همچنین تفاوت بین CountVectorizer و Hashing در فیلتر اسپم مورد بررسی قرار می‌گیرد.

 

 

آموزش پردازش زبان طبیعی NLP

 

✅ این دوره برای چه کسانی مناسب است؟

افرادی که مایل به یادگیری NLP هستند و مشتاقانه منتظر ایجاد شغل در ماشین لرنینگ هستند.

 

✅ این دوره چه پیشنیازهایی دارد؟

  1. درک اولیه پایتون
  2. یک لپ تاپ با Python IDE نصب شده است.
  3. درک یادگیری ماشینی در مطالعه موردی مفید خواهد بود اما اجباری نیست.

دانشجویان دیگر خریده اند

اتصال به گوگل درایو
اتصال به گوگل درایو
  • 9 اپیزود
  • 1 ساعت و 14 دقیقه
  • سطح مقدماتی
امتیاز دوره ( 1 نفر)
5 از 5
12,000 96,000
تــومـان
مشاهده دوره
اموزش ترسیم کمان و مسیرهای منحنی شکل در کورل دراو
اموزش ترسیم کمان و مسیرهای منحنی شکل در کورل دراو
  • 1 اپیزود
  • 10 دقیقه
  • سطح متوسط
امتیاز دوره
هنوز امتیاز ندارد
رایگان
تــومـان
مشاهده دوره
طراحی و انیمیشن یک نشان vintage در افتر افکتس
طراحی و انیمیشن یک نشان vintage در افتر افکتس
  • 37 اپیزود
  • 5 ساعت و 19 دقیقه
امتیاز دوره
هنوز امتیاز ندارد
53,000 421,000
تــومـان
مشاهده دوره
ترکیب دیجیتال فتوشاپ برای کمپین‌های تبلیغاتی
ترکیب دیجیتال فتوشاپ برای کمپین‌های تبلیغاتی
  • 13 اپیزود
  • 2 ساعت و 23 دقیقه
  • سطح متوسط
امتیاز دوره
هنوز امتیاز ندارد
23,000 206,000
تــومـان
مشاهده دوره
دوره جامع Gmail برای افزایش بهره‌وری و انجام کارها
دوره جامع Gmail برای افزایش بهره‌وری و انجام کارها
  • 16 اپیزود
  • 1 ساعت و 25 دقیقه
امتیاز دوره
هنوز امتیاز ندارد
14,000 126,000
تــومـان
مشاهده دوره
دوره‌ی ارتباطات ویدئویی
دوره‌ی ارتباطات ویدئویی
  • 20 اپیزود
  • 1 ساعت و 50 دقیقه
  • سطح مقدماتی
امتیاز دوره
هنوز امتیاز ندارد
18,000 161,000
تــومـان
مشاهده دوره

استاد دوره

امتیاز 4.3 ( 63 رای)
196 امتیاز و کامنت
725 دانشجو
94 دوره آموزشی

دوره های بیشتر از استاد ماراد، مرکز آموزش از راه دور

برای کامنت دادن باید وارد حساب کاربریتون بشین

کامنت ها

16,000 تومان
128,000 تومان
  • 19 اپیزود در مجموع 1 ساعت و 41 دقیقه
  • 15 دانشجو
  • دسترسی مادام العمر به دوره
  • قابل استفاده روی تلفن همراه و رایانه
  • گواهینامه پایان دوره ماراد
امتیاز دوره
هنوز امتیاز ندارد
شرکت در دوره
ضمانت بازگشت وجه
درگاه پرداخت ایمن
پشتیبانی 24 ساعته
تضمین کیفیت