پردازش زبان طبیعی NLP

ضبط شده
دوره رایگان: پردازش زبان طبیعی (NLP)، پردازش متن، ماشین لرنینگ، فیلتر اسپم [پایتون]
امتیاز دوره ( 4 نفر)
4.7 از 5
  • زیرنویس فارسی و انگلیسی
  • زندگی فعال
  • 19 اپیزود
  • 1 ساعت و 41 دقیقه
  • سطح متوسط
پردازش زبان طبیعی NLP

در این دوره چه چیز هایی می آموزید؟

متن‌های پردازش مختلف و پیاده‌سازی آن‌ها در پایتون چیستند؟
مطالعه موردی: نقش Hashing در فیلتر اسپم در مقایسه با Countvectorizer.

اپیزودها

اپیزود 1 پردازش زبان (NLP) چیست؟
رایگان 5 دقیقه

•NLP: پردازش زبان طبیعی•این یک زیرشاخه از زبان‌شناسی، علوم کامپیوتر، مهندسی اطلاعات و هوش مصنوعی است•به تعاملات بین کامپیوترها و زبان‌های انسانی می‌پردازد•نحوه برنامه‌ریزی کامپیوترها برای پردازش و تحلیل مقادیر زیاد داده‌های زبان طبیعی•کامپیوترها می‌توانند متن را بخوانند، گفتار را بشنوند، آن را تفسیر کنند، احساسات را اندازه‌گیری کنند و تشخیص دهند که کدام بخش‌ها مهم هستند•برنامه‌ها: تشخیص کاراکتر نوری (OCR)، تشخیص گفتار، ترجمه ماشینی و چت‌بات‌ها•الگوریتم‌های یادگیری ماشین میلیون‌ها نمونه متن که توسط انسان‌ها نوشته شده‌اند را مطالعه می‌کنند•الگوریتم‌ها به درک زمینه کمک می‌کنند•این به تمایز بین معانی متون مختلف کمک می‌کند

اپیزود 2 "توکن‌سازی".
رایگان 3 دقیقه

•وظیفه تقسیم یک متن به بخش‌هایی که به آن‌ها توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

اپیزود 3 حذف کلمات Stop
4 دقیقه

•کلمات توقف، کلمات انگلیسی هستند که معنای زیادی به یک جمله اضافه نمی‌کنند.•این کلمات می‌توانند بدون از دست دادن معنای جمله به راحتی نادیده گرفته شوند.•یک کلمه توقف، کلمه‌ای است که به طور معمول استفاده می‌شود (مانند "the"، "a"، "an"، "in") و موتور جستجو طوری برنامه‌ریزی شده است که آن را نادیده بگیرد.

•یک n-gram دنباله‌ای متوالی از n مورد از یک نمونه متن یا گفتار است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌یابی (Stemming) فرایند کاهش کلمات صرف‌شده (یا گاهی مشتق شده) به ریشه، شکل پایه یا فرم اصلی آنهاست.به عنوان مثال: موتور جستجو

• تشخیص معنای یک کلمه (یعنی معانی آن) در یک جمله، هنگامی که آن کلمه معانی متعددی دارد، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی یک مجموعه از اسناد متنی و ساخت واژگانی از کلمات شناخته شده ارائه می‌دهد، و همچنین برای کدگذاری اسناد جدید با استفاده از آن واژگان.• از همان وکتورایزر می‌توان برای اسنادی که شامل کلماتی هستند که در واژگان گنجانده نشده‌اند استفاده کرد. این کلمات نادیده گرفته شده و هیچ تعدادی در وکتور حاصل داده نمی‌شود.• مسئله: ظهور "the"• هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد.• توالی کلمات حفظ نمی‌شود.

•نمرات فراوانی کلمات TF-IDF، نمرات فراوانی هستند که سعی دارند کلماتی را که بیشتر جالب هستند، مانند مواردی که در یک سند بسیار تکرار شده‌اند اما در سندهای دیگر کمتر دیده می‌شوند، هایلایت کنند.•اهمیت در مقیاس ۰ و ۱ است.فراوانی کلمه: این خلاصه‌ای است از اینکه یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مواردی که در سندهای مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•وکتور ویژگی‌ها به مراتب در اندازه قابل مدیریت‌تر است.•فراوانی و مرتبط بودن ثبت شده است.معایب:•با این حال، زمینه هنوز ثبت نشده است.

•مشکل با شمارش‌ها و فراوانی‌ها – واژگان می‌تواند بسیار بزرگ شود مراه‌حل این است که از یک هش یک‌طرفه از کلمات برای تبدیل آن‌ها به اعداد صحیح استفاده کنیم•هیچ واژه‌نامه‌ای مورد نیاز نیست و می‌توانید یک بردار ثابت با طول دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل کدگذاری به یک کلمه وجود ندارد

•وظیفه تقسیم یک متن به قطعاتی که به آن توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

N-Grams یک دنباله پیوسته از n آیتم از یک نمونه متن یا گفتار معین است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

• ریشه‌زنی فرآیند کاهش کلمات صرف شده (یا گاهی مشتق شده) به ریشه، پایه یا فرم اصلی آنها است.به عنوان مثال: موتور جستجو

•تعیین معانی واژه (یعنی مفهوم) در یک جمله در حالیکه واژه دارای معانی متعدد است، به عنوان WSD شناخته می‌شود.

• راهی ساده برای توکن‌سازی مجموعه‌ای از اسناد متنی و ایجاد واژگان از کلمات شناخته شده فراهم می‌کند، و همچنین امکان رمزگذاری اسناد جدید با استفاده از آن واژگان را می‌دهد. • می‌توان از همان بردارکننده بر روی اسنادی که حاوی کلماتی هستند که در واژگان موجود نیستند استفاده کرد. این کلمات نادیده گرفته می‌شوند و هیچ شماری در نتیجه‌ی بردار داده نمی‌شود. • مشکل: ظاهر شدن "the" • هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد • ترتیب کلمات حفظ نمی‌شود

•TF-IDF نمرات فراوانی کلمات هستند که سعی می‌کنند کلماتی را که جالب‌تر هستند، مانند کلماتی که در یک سند فراوانند اما در بین اسناد دیگر کم‌تر دیده می‌شوند، هایلایت کنند.•اهمیت این معیار در مقیاس ۰ و ۱ استفراوانی کلمه: این مورد خلاصه‌ای از این است که یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مورد کلماتی که در اسناد مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•بردار ویژگی به لحاظ اندازه بسیار قابل کنترل‌تر است•فراوانی و ارتباط به خوبی ثبت شده‌اندمعایب:•زمینه هنوز به خوبی ثبت نشده است

•مشکل با تعداد و فراوانی - دایره واژگان می‌تواند بسیار بزرگ شود•راه حل این است که از یک هش یک طرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•نیازی به دایره واژگان نیست و می‌توانید یک بردار با طول ثابت و دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل مجدد کدگذاری به یک کلمه وجود ندارد

توضیحات دوره

این دوره یک درک پایه از پردازش زبان طبیعی (NLP) را فراهم می‌کند. هر کسی می‌تواند برای این دوره ثبت‌نام کند. هیچ دانش پیش‌زمینه‌ای از NLP لازم نیست. پردازش متن مانند توکن‌سازی، حذف کلمات توقف، ریشه‌یابی، انواع مختلف وکتورایزرها، تشخیص معنی کلمه (WSD) و غیره به‌طور مفصل با کد پایتون توضیح داده شده است. همچنین تفاوت بین CountVectorizer و Hashing در فیلتر اسپم مورد بررسی قرار می‌گیرد.

 

 

آموزش پردازش زبان طبیعی NLP

 

✅ این دوره برای چه کسانی مناسب است؟

افرادی که مایل به یادگیری NLP هستند و مشتاقانه منتظر ایجاد شغل در ماشین لرنینگ هستند.

 

✅ این دوره چه پیشنیازهایی دارد؟

  1. درک اولیه پایتون
  2. یک لپ تاپ با Python IDE نصب شده است.
  3. درک یادگیری ماشینی در مطالعه موردی مفید خواهد بود اما اجباری نیست.

دانشجویان دیگر خریده اند

شروع کار به عنوان یک توسعه‌دهنده وب
شروع کار به عنوان یک توسعه‌دهنده وب
  • 13 اپیزود
  • 1 ساعت و 6 دقیقه
  • سطح مقدماتی
امتیاز دوره ( 1 نفر)
5 از 5
11,000 99,000
تــومـان
مشاهده دوره
از بازی تا واقعیت؛ همسفر هوش مصنوعی شویم
از بازی تا واقعیت؛ همسفر هوش مصنوعی شویم
  • 1 اپیزود
  • 37 دقیقه
  • سطح مقدماتی
امتیاز دوره ( 2 نفر)
4.5 از 5
رایگان
تــومـان
مشاهده دوره
دوره عملی پداگوژی ( کتاب کار فراگیر )
دوره عملی پداگوژی ( کتاب کار فراگیر )
  • 1 اپیزود
  • 23 دقیقه
امتیاز دوره ( 3 نفر)
4 از 5
رایگان
تــومـان
مشاهده دوره
چالش ۵ روزه نهایی گیت
چالش ۵ روزه نهایی گیت
  • 25 اپیزود
  • 1 ساعت و 18 دقیقه
  • سطح مقدماتی
امتیاز دوره
هنوز امتیاز ندارد
13,000 117,000
تــومـان
مشاهده دوره
طراحی سایت با وردپرس دوره مقدماتی
طراحی سایت با وردپرس دوره مقدماتی
  • 10 جلسه
  • 15 ساعت
  • سطح مقدماتی
امتیاز دوره
هنوز امتیاز ندارد
1,250,000 1,568,000
تــومـان
مشاهده دوره
مدیریت MongoDB، پیشرو NOSQL با وضوح و اعتماد به نفس
مدیریت MongoDB، پیشرو NOSQL با وضوح و اعتماد به نفس
  • 67 اپیزود
  • 12 ساعت و 18 دقیقه
امتیاز دوره
هنوز امتیاز ندارد
123,000 1,099,000
تــومـان
مشاهده دوره

استاد دوره

امتیاز 4.2 ( 686 رای)
2109 امتیاز و کامنت
7616 دانشجو
287 دوره آموزشی

دوره های بیشتر از استاد ماراد، مرکز آموزش از راه دور

برای کامنت دادن باید وارد حساب کاربریتون بشین

کامنت ها

16,000 تومان
128,000 تومان
  • 19 اپیزود در مجموع 1 ساعت و 41 دقیقه
  • 46 دانشجو
  • قابل پخش در همه ساعات شبانه روز
  • قابل استفاده روی تلفن همراه و رایانه
  • گواهینامه پایان دوره ماراد
امتیاز دوره ( 4 نفر)
4.7 از 5
شرکت در دوره
ضمانت بازگشت وجه
درگاه پرداخت ایمن
پشتیبانی 24 ساعته
تضمین کیفیت