پردازش زبان طبیعی NLP

ضبط شده
دوره رایگان: پردازش زبان طبیعی (NLP)، پردازش متن، ماشین لرنینگ، فیلتر اسپم [پایتون]
امتیاز دوره
هنوز امتیاز ندارد
  • زیرنویس فارسی و انگلیسی
  • زندگی فعال
  • 19 اپیزود
  • 1 ساعت و 41 دقیقه
  • سطح متوسط
پردازش زبان طبیعی NLP

در این دوره چه چیز هایی می آموزید؟

متن‌های پردازش مختلف و پیاده‌سازی آن‌ها در پایتون چیستند؟
مطالعه موردی: نقش Hashing در فیلتر اسپم در مقایسه با Countvectorizer.

اپیزودها

اپیزود 1 پردازش زبان (NLP) چیست؟
رایگان 5 دقیقه

•NLP: پردازش زبان طبیعی•این یک زیرشاخه از زبان‌شناسی، علوم کامپیوتر، مهندسی اطلاعات و هوش مصنوعی است•به تعاملات بین کامپیوترها و زبان‌های انسانی می‌پردازد•نحوه برنامه‌ریزی کامپیوترها برای پردازش و تحلیل مقادیر زیاد داده‌های زبان طبیعی•کامپیوترها می‌توانند متن را بخوانند، گفتار را بشنوند، آن را تفسیر کنند، احساسات را اندازه‌گیری کنند و تشخیص دهند که کدام بخش‌ها مهم هستند•برنامه‌ها: تشخیص کاراکتر نوری (OCR)، تشخیص گفتار، ترجمه ماشینی و چت‌بات‌ها•الگوریتم‌های یادگیری ماشین میلیون‌ها نمونه متن که توسط انسان‌ها نوشته شده‌اند را مطالعه می‌کنند•الگوریتم‌ها به درک زمینه کمک می‌کنند•این به تمایز بین معانی متون مختلف کمک می‌کند

اپیزود 2 "توکن‌سازی".
رایگان 3 دقیقه

•وظیفه تقسیم یک متن به بخش‌هایی که به آن‌ها توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

اپیزود 3 حذف کلمات Stop
4 دقیقه

•کلمات توقف، کلمات انگلیسی هستند که معنای زیادی به یک جمله اضافه نمی‌کنند.•این کلمات می‌توانند بدون از دست دادن معنای جمله به راحتی نادیده گرفته شوند.•یک کلمه توقف، کلمه‌ای است که به طور معمول استفاده می‌شود (مانند "the"، "a"، "an"، "in") و موتور جستجو طوری برنامه‌ریزی شده است که آن را نادیده بگیرد.

•یک n-gram دنباله‌ای متوالی از n مورد از یک نمونه متن یا گفتار است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌یابی (Stemming) فرایند کاهش کلمات صرف‌شده (یا گاهی مشتق شده) به ریشه، شکل پایه یا فرم اصلی آنهاست.به عنوان مثال: موتور جستجو

• تشخیص معنای یک کلمه (یعنی معانی آن) در یک جمله، هنگامی که آن کلمه معانی متعددی دارد، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی یک مجموعه از اسناد متنی و ساخت واژگانی از کلمات شناخته شده ارائه می‌دهد، و همچنین برای کدگذاری اسناد جدید با استفاده از آن واژگان.• از همان وکتورایزر می‌توان برای اسنادی که شامل کلماتی هستند که در واژگان گنجانده نشده‌اند استفاده کرد. این کلمات نادیده گرفته شده و هیچ تعدادی در وکتور حاصل داده نمی‌شود.• مسئله: ظهور "the"• هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد.• توالی کلمات حفظ نمی‌شود.

•نمرات فراوانی کلمات TF-IDF، نمرات فراوانی هستند که سعی دارند کلماتی را که بیشتر جالب هستند، مانند مواردی که در یک سند بسیار تکرار شده‌اند اما در سندهای دیگر کمتر دیده می‌شوند، هایلایت کنند.•اهمیت در مقیاس ۰ و ۱ است.فراوانی کلمه: این خلاصه‌ای است از اینکه یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مواردی که در سندهای مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•وکتور ویژگی‌ها به مراتب در اندازه قابل مدیریت‌تر است.•فراوانی و مرتبط بودن ثبت شده است.معایب:•با این حال، زمینه هنوز ثبت نشده است.

•مشکل با شمارش‌ها و فراوانی‌ها – واژگان می‌تواند بسیار بزرگ شود مراه‌حل این است که از یک هش یک‌طرفه از کلمات برای تبدیل آن‌ها به اعداد صحیح استفاده کنیم•هیچ واژه‌نامه‌ای مورد نیاز نیست و می‌توانید یک بردار ثابت با طول دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل کدگذاری به یک کلمه وجود ندارد

•وظیفه تقسیم یک متن به قطعاتی که به آن توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

N-Grams یک دنباله پیوسته از n آیتم از یک نمونه متن یا گفتار معین است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌زنی فرآیند کاهش کلمات صرف شده (یا گاهی مشتق شده) به ریشه، پایه یا فرم اصلی آنها است.به عنوان مثال: موتور جستجو

•تعیین معانی واژه (یعنی مفهوم) در یک جمله در حالیکه واژه دارای معانی متعدد است، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی مجموعه‌ای از اسناد متنی و ایجاد واژگان از کلمات شناخته شده فراهم می‌کند، و همچنین امکان رمزگذاری اسناد جدید با استفاده از آن واژگان را می‌دهد. • می‌توان از همان بردارکننده بر روی اسنادی که حاوی کلماتی هستند که در واژگان موجود نیستند استفاده کرد. این کلمات نادیده گرفته می‌شوند و هیچ شماری در نتیجه‌ی بردار داده نمی‌شود. • مشکل: ظاهر شدن "the" • هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد • ترتیب کلمات حفظ نمی‌شود

•TF-IDF نمرات فراوانی کلمات هستند که سعی می‌کنند کلماتی را که جالب‌تر هستند، مانند کلماتی که در یک سند فراوانند اما در بین اسناد دیگر کم‌تر دیده می‌شوند، هایلایت کنند.•اهمیت این معیار در مقیاس ۰ و ۱ استفراوانی کلمه: این مورد خلاصه‌ای از این است که یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مورد کلماتی که در اسناد مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•بردار ویژگی به لحاظ اندازه بسیار قابل کنترل‌تر است•فراوانی و ارتباط به خوبی ثبت شده‌اندمعایب:•زمینه هنوز به خوبی ثبت نشده است

•مشکل با تعداد و فراوانی - دایره واژگان می‌تواند بسیار بزرگ شود•راه حل این است که از یک هش یک طرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•نیازی به دایره واژگان نیست و می‌توانید یک بردار با طول ثابت و دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل مجدد کدگذاری به یک کلمه وجود ندارد

توضیحات دوره

این دوره یک درک پایه از پردازش زبان طبیعی (NLP) را فراهم می‌کند. هر کسی می‌تواند برای این دوره ثبت‌نام کند. هیچ دانش پیش‌زمینه‌ای از NLP لازم نیست. پردازش متن مانند توکن‌سازی، حذف کلمات توقف، ریشه‌یابی، انواع مختلف وکتورایزرها، تشخیص معنی کلمه (WSD) و غیره به‌طور مفصل با کد پایتون توضیح داده شده است. همچنین تفاوت بین CountVectorizer و Hashing در فیلتر اسپم مورد بررسی قرار می‌گیرد.

 

 

آموزش پردازش زبان طبیعی NLP

 

✅ این دوره برای چه کسانی مناسب است؟

افرادی که مایل به یادگیری NLP هستند و مشتاقانه منتظر ایجاد شغل در ماشین لرنینگ هستند.

 

✅ این دوره چه پیشنیازهایی دارد؟

  1. درک اولیه پایتون
  2. یک لپ تاپ با Python IDE نصب شده است.
  3. درک یادگیری ماشینی در مطالعه موردی مفید خواهد بود اما اجباری نیست.

دانشجویان دیگر خریده اند

دوره آموزش سئو برای مبتدیان با هوش مصنوعی مولد
دوره آموزش سئو برای مبتدیان با هوش مصنوعی مولد
  • 22 اپیزود
  • 1 ساعت و 4 دقیقه
  • سطح مقدماتی
امتیاز دوره ( 1 نفر)
3 از 5
10,000 90,000
تــومـان
مشاهده دوره
چگونه از ابتدا تا انتها سئو انجام دهیم و در گوگل رتبه یک بگیریم
چگونه از ابتدا تا انتها سئو انجام دهیم و در گوگل رتبه یک بگیریم
  • 6 اپیزود
  • 2 ساعت و 19 دقیقه
امتیاز دوره
هنوز امتیاز ندارد
23,000 160,000
تــومـان
مشاهده دوره
تولید سرنخ B2B برای بازاریابی
تولید سرنخ B2B برای بازاریابی
  • 16 اپیزود
  • 1 ساعت و 22 دقیقه
  • سطح مقدماتی
امتیاز دوره
هنوز امتیاز ندارد
13,000 91,000
تــومـان
مشاهده دوره
یادگیری سئو پیشرفته از صفر، دوره کامل آموزش سئو
یادگیری سئو پیشرفته از صفر، دوره کامل آموزش سئو
  • 61 اپیزود
  • 10 ساعت و 55 دقیقه
امتیاز دوره
هنوز امتیاز ندارد
109,000 866,000
تــومـان
مشاهده دوره
SQL انیمیشنی برای مبتدیان
SQL انیمیشنی برای مبتدیان
  • 34 اپیزود
  • 2 ساعت و 4 دقیقه
  • سطح مقدماتی
امتیاز دوره
هنوز امتیاز ندارد
20,000 139,000
تــومـان
مشاهده دوره

استاد دوره

امتیاز 4.2 ( 95 رای)
165 امتیاز و کامنت
422 دانشجو
71 دوره آموزشی

دوره های بیشتر از استاد ماراد، مرکز آموزش از راه دور

برای کامنت دادن باید وارد حساب کاربریتون بشین

کامنت ها

16,000 تومان
128,000 تومان
  • 19 اپیزود در مجموع 1 ساعت و 41 دقیقه
  • 16 دانشجو
  • قابل پخش در همه ساعات شبانه روز
  • قابل استفاده روی تلفن همراه و رایانه
  • گواهینامه پایان دوره ماراد
امتیاز دوره
هنوز امتیاز ندارد
شرکت در دوره
ضمانت بازگشت وجه
درگاه پرداخت ایمن
پشتیبانی 24 ساعته
تضمین کیفیت