پردازش زبان طبیعی NLP

Name: پردازش زبان طبیعی NLP
Price: 1280000 IRR
Availability: InStock
Author: ماراد، مرکز آموزش از راه دور

ضبط شده

دوره رایگان: پردازش زبان طبیعی (NLP)، پردازش متن، ماشین لرنینگ، فیلتر اسپم [پایتون]

امتیاز دوره ( 13 نفر)

4.65 از 5

بیش از 1 سال تدریس در ماراد
زیرنویس فارسی و انگلیسی

ماراد، مرکز آموزش از راه دور

زندگی فعال
19 اپیزود
1 ساعت و 41 دقیقه
سطح متوسط

درباره دوره اپیزود ها توضیحات تکمیلی اطلاعات استاد کامنت ها

در این دوره چه چیز هایی می آموزید؟

متن‌های پردازش مختلف و پیاده‌سازی آن‌ها در پایتون چیستند؟

مطالعه موردی: نقش Hashing در فیلتر اسپم در مقایسه با Countvectorizer.

اپیزودها

اپیزود 1 پردازش زبان (NLP) چیست؟

رایگان 5 دقیقه

•NLP: پردازش زبان طبیعی•این یک زیرشاخه از زبان‌شناسی، علوم کامپیوتر، مهندسی اطلاعات و هوش مصنوعی است•به تعاملات بین کامپیوترها و زبان‌های انسانی می‌پردازد•نحوه برنامه‌ریزی کامپیوترها برای پردازش و تحلیل مقادیر زیاد داده‌های زبان طبیعی•کامپیوترها می‌توانند متن را بخوانند، گفتار را بشنوند، آن را تفسیر کنند، احساسات را اندازه‌گیری کنند و تشخیص دهند که کدام بخش‌ها مهم هستند•برنامه‌ها: تشخیص کاراکتر نوری (OCR)، تشخیص گفتار، ترجمه ماشینی و چت‌بات‌ها•الگوریتم‌های یادگیری ماشین میلیون‌ها نمونه متن که توسط انسان‌ها نوشته شده‌اند را مطالعه می‌کنند•الگوریتم‌ها به درک زمینه کمک می‌کنند•این به تمایز بین معانی متون مختلف کمک می‌کند

پخش آنلاین

اپیزود 2 "توکن‌سازی".

رایگان 3 دقیقه

•وظیفه تقسیم یک متن به بخش‌هایی که به آن‌ها توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

پخش آنلاین

اپیزود 3 حذف کلمات Stop

4 دقیقه

•کلمات توقف، کلمات انگلیسی هستند که معنای زیادی به یک جمله اضافه نمی‌کنند.•این کلمات می‌توانند بدون از دست دادن معنای جمله به راحتی نادیده گرفته شوند.•یک کلمه توقف، کلمه‌ای است که به طور معمول استفاده می‌شود (مانند "the"، "a"، "an"، "in") و موتور جستجو طوری برنامه‌ریزی شده است که آن را نادیده بگیرد.

اپیزود 4 N-Grams

4 دقیقه

•یک n-gram دنباله‌ای متوالی از n مورد از یک نمونه متن یا گفتار است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

اپیزود 5 "ریشه‌یابی".

2 دقیقه

• ریشه‌یابی (Stemming) فرایند کاهش کلمات صرف‌شده (یا گاهی مشتق شده) به ریشه، شکل پایه یا فرم اصلی آنهاست.به عنوان مثال: موتور جستجو

اپیزود 6 تعیین معنای کلمات

3 دقیقه

• تشخیص معنای یک کلمه (یعنی معانی آن) در یک جمله، هنگامی که آن کلمه معانی متعددی دارد، به عنوان WSD شناخته می‌شود.

اپیزود 7 "مبدل شمارش"

6 دقیقه

• راهی ساده برای توکن‌سازی یک مجموعه از اسناد متنی و ساخت واژگانی از کلمات شناخته شده ارائه می‌دهد، و همچنین برای کدگذاری اسناد جدید با استفاده از آن واژگان.• از همان وکتورایزر می‌توان برای اسنادی که شامل کلماتی هستند که در واژگان گنجانده نشده‌اند استفاده کرد. این کلمات نادیده گرفته شده و هیچ تعدادی در وکتور حاصل داده نمی‌شود.• مسئله: ظهور "the"• هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد.• توالی کلمات حفظ نمی‌شود.

اپیزود 8 مبدل وکتور TF-IDF

8 دقیقه

•نمرات فراوانی کلمات TF-IDF، نمرات فراوانی هستند که سعی دارند کلماتی را که بیشتر جالب هستند، مانند مواردی که در یک سند بسیار تکرار شده‌اند اما در سندهای دیگر کمتر دیده می‌شوند، هایلایت کنند.•اهمیت در مقیاس ۰ و ۱ است.فراوانی کلمه: این خلاصه‌ای است از اینکه یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مواردی که در سندهای مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•وکتور ویژگی‌ها به مراتب در اندازه قابل مدیریت‌تر است.•فراوانی و مرتبط بودن ثبت شده است.معایب:•با این حال، زمینه هنوز ثبت نشده است.

اپیزود 9 Hashing Vectorizer

5 دقیقه

•مشکل با شمارش‌ها و فراوانی‌ها – واژگان می‌تواند بسیار بزرگ شود مراه‌حل این است که از یک هش یک‌طرفه از کلمات برای تبدیل آن‌ها به اعداد صحیح استفاده کنیم•هیچ واژه‌نامه‌ای مورد نیاز نیست و می‌توانید یک بردار ثابت با طول دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل کدگذاری به یک کلمه وجود ندارد

اپیزود 10 توکن‌سازی - پایتون

6 دقیقه

•وظیفه تقسیم یک متن به قطعاتی که به آن توکن گفته می‌شودانواع:•توکن سازی کلمات•توکن سازی جملات

اپیزود 11 حذف کلمات بی‌فایده - پایتون

7 دقیقه

اپیزود 12 N-Grams - پایتون

5 دقیقه

N-Grams یک دنباله پیوسته از n آیتم از یک نمونه متن یا گفتار معین است.به عنوان مثال: در حین تایپ کردن، ما پیشنهاداتی دریافت می‌کنیم.

اپیزود 13 Stemming- پایتون

5 دقیقه

• ریشه‌زنی فرآیند کاهش کلمات صرف شده (یا گاهی مشتق شده) به ریشه، پایه یا فرم اصلی آنها است.به عنوان مثال: موتور جستجو

اپیزود 14 تعیین معنای واژه - پایتون

8 دقیقه

•تعیین معانی واژه (یعنی مفهوم) در یک جمله در حالیکه واژه دارای معانی متعدد است، به عنوان WSD شناخته می‌شود.

اپیزود 15 تعداد Vectorizer - پایتون

8 دقیقه

• راهی ساده برای توکن‌سازی مجموعه‌ای از اسناد متنی و ایجاد واژگان از کلمات شناخته شده فراهم می‌کند، و همچنین امکان رمزگذاری اسناد جدید با استفاده از آن واژگان را می‌دهد. • می‌توان از همان بردارکننده بر روی اسنادی که حاوی کلماتی هستند که در واژگان موجود نیستند استفاده کرد. این کلمات نادیده گرفته می‌شوند و هیچ شماری در نتیجه‌ی بردار داده نمی‌شود. • مشکل: ظاهر شدن "the" • هر ستون نمایانگر یک کلمه است و شمارش به فراوانی کلمه اشاره دارد • ترتیب کلمات حفظ نمی‌شود

اپیزود 16 TF-IDF وکتورایزر - پایتون

4 دقیقه

•TF-IDF نمرات فراوانی کلمات هستند که سعی می‌کنند کلماتی را که جالب‌تر هستند، مانند کلماتی که در یک سند فراوانند اما در بین اسناد دیگر کم‌تر دیده می‌شوند، هایلایت کنند.•اهمیت این معیار در مقیاس ۰ و ۱ استفراوانی کلمه: این مورد خلاصه‌ای از این است که یک کلمه خاص چند بار در یک سند ظاهر می‌شود.فراوانی معکوس سند: این مورد کلماتی که در اسناد مختلف زیاد ظاهر می‌شوند را کاهش می‌دهد.مزایا:•بردار ویژگی به لحاظ اندازه بسیار قابل کنترل‌تر است•فراوانی و ارتباط به خوبی ثبت شده‌اندمعایب:•زمینه هنوز به خوبی ثبت نشده است

اپیزود 17 Hashing Vectorizer - پایتون

5 دقیقه

•مشکل با تعداد و فراوانی - دایره واژگان می‌تواند بسیار بزرگ شود•راه حل این است که از یک هش یک طرفه از کلمات برای تبدیل آنها به اعداد صحیح استفاده کنیم•نیازی به دایره واژگان نیست و می‌توانید یک بردار با طول ثابت و دلخواه انتخاب کنید•معایب - هیچ راهی برای تبدیل مجدد کدگذاری به یک کلمه وجود ندارد

اپیزود 18 فیلتر هرزنامه با استفاده از Count Vectorizer

9 دقیقه

اپیزود 19 فیلتر هرزنامه با استفاده از Hashing

4 دقیقه

اکشن های دوره

شرکت در دوره : 16,000 تومان

توضیحات دوره

این دوره یک درک پایه از پردازش زبان طبیعی (NLP) را فراهم می‌کند. هر کسی می‌تواند برای این دوره ثبت‌نام کند. هیچ دانش پیش‌زمینه‌ای از NLP لازم نیست. پردازش متن مانند توکن‌سازی، حذف کلمات توقف، ریشه‌یابی، انواع مختلف وکتورایزرها، تشخیص معنی کلمه (WSD) و غیره به‌طور مفصل با کد پایتون توضیح داده شده است. همچنین تفاوت بین CountVectorizer و Hashing در فیلتر اسپم مورد بررسی قرار می‌گیرد.

آموزش پردازش زبان طبیعی NLP