پایان نامه ارشد رشته فناوری اطلاعات: رهیافتی برای نظرکاوی در متون خبری فارسی |
فصل2 پیشینهتحقیق……………………………………………………………………………….. 7
2-1. مقدمه……………………………………………………………………………………………. 8
2-2. چالشها و کارهای مرتبط با حوزهی کاوش در نظرات …… … …..8
2-2-1. شناسایی شخص صاحب نظر…………………………………………………………………. 8
2-2-2. تشخیص هدف نظر اظهارشده………………………………………………………………… 9
2-2-3. درجهبندی نظر……………………………………………………………………………….. 9
2-2-4. جستجو و یافتن متون هدف…………………………………………………………………. 10
2-2-4-1. تشخیص موضوع………………………………………………………………………. 10
2-2-4-2. تشخیص زبان…………………………………………………………………………. 10
2-2-4-3. تشخیص وجود نظر…………………………………………………………………… 11
2-2-5. سطح مطالعهی گرایش احساس……………………………………………………………… 11
2-2-6. منابع لغوی………………………………………………………………………………….. 11
2-2-7. مشخصه های استفادهشده در مطالعات قبلی………………………………………………….. 12
2-2-8. خلاصهسازی………………………………………………………………………………… 12
2-2-9. وزندهی…………………………………………………………………………………….. 12
2-2-10. شناسایی نظرات نامطلوب………………………………………………………………….. 13
2-2-11. پیشپردازشهای لازم بر روی متن………………………………………………………… 13
2-3. ضعفهایی در مطالعات قبل که در راستای رفع آن ها تلاش شده است . 14
فصل3 معماری پیشنهادی برای یک موتور جستجوی نظرات……………………………………….. 15
3-1. مقدمه………………………………………………………………………………………….. 16
3-2. واسط کاربر……………………………………………………………………………………. 16
3-3. مدیریتکنندهی جستجو………………………………………………………………………… 17
3-4. خلاصهساز نتایج……………………………………………………………………………….. 17
3-5. رتبهبند…………………………………………………………………………………………. 17
3-6. گسترشدهندهی پرسوجو……………………………………………………………………… 18
3-7. پایگاهدادهی اطلاعات تحلیلشده……………………………………………………………….. 18
3-8. خزشگر متمرکز……………………………………………………………………………….. 18
3-8-1. شناسایی وجود احساس………………………………………………………………….. 19
3-8-2. تشخیص موضوع…………………………………………………………………………. 19
3-8-3. تشخیص زبان……………………………………………………………………………. 19
3-9. پایگاهدادهی اسناد خام………………………………………………………………………….. 19
3-10. تجزیهوتحلیل دادهها………………………………………………………………………….. 19
3-10-1. تشخیص هدف عقیده…………………………………………………………………… 20
3-10-2. تشخیص شخص بیان کنندهی اظهارنظر…………………………………………………. 20
3-10-3. ردهبندی احساس……………………………………………………………………….. 20
3-10-4. تشخیص نظرات نامطلوب………………………………………………………………. 20
3-10-5. وزنگذاری نظر…………………………………………………………………………. 20
3-10-6. تجزیهوتحلیل شبکههای اجتماعی……………………………………………………….. 21
3-11. پیشپردازش اسناد و متون……………………………………………………………………. 21
3-11-1. استخراج جملات……………………………………………………………………….. 21
3-11-2. قطعهبندی……………………………………………………………………………….. 22
3-11-3. بررسی املا……………………………………………………………………………… 22
3-11-4. ریشهیابی……………………………………………………………………………….. 22
3-11-5. نرمالسازی……………………………………………………………………………… 22
3-11-6. تجزیه…………………………………………………………………………………… 23
3-11-7. برچسبگذاری اجزاء گفتار……………………………………………………………… 23
3-12. پایگاه دادهی اطلاعات پیشپردازششده………………………………………………………. 23
فصل4 روش تحقیق، آزمایشها، و نتایج…………………………………………………………… 25
4-1. مقدمه………………………………………………………………………………………….. 26
4-2. انتخاب زمینه…………………………………………………………………………………… 26
4-3. انتخاب و استخراج نظرات……………………………………………………………………… 27
4-4. مشخصه های مورد استفاده……………………………………………………………………… 28
4-5. پیشپردازشهای انجامشده و استخراج بردارهای مشخصه………………………. 30
4-6. انتخاب ردهبندها……………………………………………………………………………….. 31
4-7. آزمایشهای انجامشده………………………………………………………………………….. 32
4-8. تحلیل نتایج……………………………………………………………………………………. 41
4-8-1. بهترین نتایج……………………………………………………………………………… 41
4-8-2. بررسی ترکیب دو مشخصهی “گرایش آغازگر”، و “نشانههای سؤال”………………………. 41
4-8-3. بررسی افزودن مشخصهی “صفات و قیود استخراج شده به صورت خودکار” به دو مشخصهی قبل…. 42
4-8-4. بررسی تکتک مشخصه ها……………………………………………………………….. 43
4-8-5. بررسی لحاظ و عدم لحاظ “نرمالسازی” و “تعداد رخداد” مشخصه ها…………………….. 44
4-8-6. بررسی ردهبندهای مورد استفاده…………………………………………………………… 45
4-8-7. بررسی تاثیر حذف برخی از صفات و قیود وابسته به زمینه……………………………….. 46
4-8-8. بررسی برخی از ردهبندهای مهم و شناختهشدهی دیگر……………………………………. 46
فصل5 نتیجهگیری و کارهای آتی…………………………………………………………………… 48
5-1. نتیجهگیری……………………………………………………………………………………… 49
5-2. کارهای آتی……………………………………………………………………………………. 50
مراجع و ماخذ……………………………………………………………………………………….. 51
پیوست الف: 50 اظهارنظر استفاده شده (از 30 خبر)، بههمراه مشخصه های استخراجشده از داخل آن ها. 55
واژهنامه فارسی- انگلیسی……………………………………………………………………………. 86
واژهنامه انگلیسی- فارسی……………………………………………………………………………. 88
چکیدهی انگلیسی .. 90
چکیده:
در این پایاننامه به ردهبندی و تعیین گرایش یا قطبیت احساس در نظرات کاربران از نقطهنظر مثبت یا منفی بودن نظرات بیانشده، در یکی از پربازدیدترین سایتهای خبری ایران پرداختهایم. برای اینکار مشخصه های جدیدی را معرفی کردهایم. پس از جمع آوری و پیشپردازش متن نظرات و استخراج این مشخصه ها، آن ها را با بهره گرفتن از ردهبندهای مختلف در حالات و ترکیبهای گوناگون مورد بررسی قرار دادهایم. نتایج بدست آمده نشان از کارایی مناسب مشخصه های معرفی شده و ردهبندهای مورد استفاده دارند بهطوریکه بالاترین دقت (نود و سه درصد) در حالتی بدست آمده است که از تمام مشخصه ها برای آموزش ردهبند استفاده شده است.
علاوه بر کار ردهبندی مذکور، با نگاهی به انواع دیگر چالشها، تحقیقات انجامشده، و مسائل متنوع مرتبط با کاوش در نظرات متنی کاربران (مانند تشخیص شخص بیان کنندهی نظر، تشخیص درجهی شدت گرایش، شناسایی نظرات نامطلوب، و…)، ایدهی جدید ایجاد یک موتور جستجوی نظرات مطرح و معماری پیشنهادی برای آن ارائه شده است.
فصل اول: مقدمه
1- مقدمه و ضرورت تحقیق
اطلاع از نظر دیگران از نقطهنظرات گوناگون دارای اهمیت فراوانی است. تصور کنید که قصد دارید کالا یا خدماتی را خریداری کنید. آگاهی از نظر مثبت یا منفی افرادی که قبلا آن کالا یا خدمات را خریداری کردهاند چقدر برای شما اهمیت دارد؟ آیا نظر آن ها میتواند بر تصمیم شما تاثیرگذار باشد؟ اگر یک شرکت خدماتی داشتید به چه میزان علاقهمند به اطلاع از نظر مخاطبین خود در رابطه با مطلوبیت یا عدم مطلوبیت خدمات خود بودید؟ آیا اطلاع از نظر آن ها در اتخاذ تصمیمات بهتر به شما کمک میکرد؟ اگر یک کاندیدای انتخاباتی بودید تمایل داشتید تا از اقبال یا عدم اقبال رایدهندگان نسبت به خود خبر داشته باشید؟
اگر به اطرافمان نگاه کنیم میبینیم که افراد حقیقی و حقوقی گوناگون از شرکتهای بزرگ و سیاستمداران گرفته، تا افراد عادی جامعه در تصمیمات کوچک و بزرگ خود تحت تاثیر نظرات دیگران قرار دارند. طبیعتاً در چنین وضعیتی اطلاع از نظرات افراد اهمیت فراوانی پیدا میکند.
از طرف دیگر با ظهور وب و گسترش مشارکت کاربران در سالهای اخیر به خصوص با ظهور پدیدههایی مثل وبلاگها[1] و شبکههای اجتماعی[2]، و تمایل کاربران برای اظهار و به اشتراکگذاری نظرات خود پیرامون مسائل مختلف، شاهد حجم انبوهی از نظرات مکتوبی هستیم که هرگز تاکنون با این حجم، تنوع، و آسانی در دسترس قرار نداشتهاند. این موضوع بههمراه اهمیت ذکرشده در مورد اطلاع از نظر دیگران توجه محققین علوم کامپیوتر بویژه محققین حوزهی دادهکاوی[3] را بهخود جلب کرده است و موجب شکلگیری حوزهای جدید تحت عنوان “کاوش در نظرات[4]” گردیده است. بر اساس [1] شاید بتوان سال 2001 میلادی را نقطهی عطفی برای این توجهات دانست.
به زمان ابعاد گوناگون جدیدی در حوزهی کاوش در نظرات نمایان گشتند و تحقیقات متنوعی در رابطه با هر یک از این ابعاد شکل گرفتند. به عنوان نمونه نیاز به اطلاع از هویت و مشخصات شخصی که یک نظر را اظهار کرده است مثلا برای تعیین میزان سودمندی آن اظهار نظر، و یا نیاز به تشخیص نظراتی که برای اهداف نامطلوب (از قبیل تبلیغات جهتدار بهنفع یا برعلیه یک کالا) درج شدهاند از جملهی این ابعاد هستند. ی بر تحقیقات انجامشده در حوزهی کاوش در نظرات را میتوان در [1] و [2] دید. در فصل دو به معرفی ابعاد گوناگون این حوزه و نیز چالشهای مشترک این حوزه با حوزههای دیگر متنکاوی[5] (نظیر قطعهبندی متن[6] و برچسب زدن اجزاء گفتار[7]) خواهیم پرداخت.
وقتی شخصی در رابطه با چیزی نظری را بیان میکند، این نظر میتواند حاوی ویژگیهای احساسی نظیر خشم، ترس، خوشحالی، و … باشد. از جملهی ویژگیهای احساسی موجود در نظرات که از مهمترین و اولیهترین بحثهایی بوده که در حوزهی کاوش در نظرات مطرح بوده است، گرایش یا به عبارت دیگر مثبت یا منفی بودن نظر اظهارشده در مورد هدف اظهارنظر است. از تشخیص این ویژگی احساسی در ادبیات این حوزه تحت عناوین “ردهبندی احساس[8]”، “تحلیل احساس[9]”، “تشخیص قطبیت احساس[10]”، و “تشخیص گرایش احساس[11]” یاد میشود. برای مثال اظهارنظر “تصویر این تلویزیون خیلی با کیفیت است” حاوی احساس مثبت نسبت به کیفیت تصویر تلویزیون است و در طبقهبندی مثبت قرار میگیرد، و اظهارنظر “تماشای این فیلم را به کسی توصیه نمیکنم” حاوی احساس منفی نسبت به فیلم مورد نظر است.
آگاهی از “گرایش احساس در نظرات[12]” کاربران در حوزههای مختلف از قبیل تجارت، سیاست، تعامل بین انسان و کامپیوتر (برای تعیین نوع عکسالعمل ماشین بر اساس نظر انسان)، و در انواع تصمیمگیریهای افراد حقیقی و حقوقی کاربرد فراوانی دارد که در آغاز بحث برخی از آن ها مورد اشاره قرار گرفتند. این موضوع بههمراه حجم پایین کار انجامشدهی مرتبط در حوزهی زبان فارسی (در جستجوی انجامشده هیچ مقالهی منتشرشدهای در این حوزه برای زبان فارسی یافت نشد)، انجام مطالعه در این رابطه برای نظرات بیانشده به زبان فارسی را ضروری می کند.
علاوهبر نیاز به تحقیقات در حوزهی مذکور، اکنون پس از حدود یک دهه که از شروع مطالعات در زمینهی کاوش در نظرات میگذرد و ابعاد گوناگونی از آن روشن شده و تا حدودی برروی آن ها تحقیق شده است، جای خالی سیستمی که از محصولات خروجی از تحقیقات این حوزههای تحقیقاتی، به صورت مجتمع و ترکیبی بهره ببرد و با تجمیع و هماهنگی بین آن ها همراه با بهره گرفتن از محصولات تحقیقات زمینههای مرتبط دیگر، به ارائه سرویسهای کاربردی و ترکیبیای بپردازد که بهتنهایی توسط هیچیک از این بخشها و بدون همکاری با بخشهای دیگر امکانپذیر نخواهد بود دیده میشود. چنین سیستمی که کاربران بتوانند انواع گوناگون از نیازهای خود را بهخوبی به آن منتقل کنند و آن ها را در مدت زمان کوتاهی دریافت کنند قطعا مورد استقبال شدید کاربران مختلف قرار خواهد گرفت. به عنوان مثال ممکن است تولید کنندگان یک کالای تخصصی با کاربرد صنعتی، نیاز به آگاهی از گرایش نظرات افرادی که دارای تخصص در آن صنعت هستند در رابطه با آن کالای خاص و به صورت خلاصهشده داشته باشند. در چنین حالتی سیستم با بهره گرفتن از محصول بدستآمده از تحقیقات انجامشده برای تشخیص هویت اظهارنظرکنندگان و استخراج خصوصیات آن ها، نظراتی که توسط افراد موردنظر بیان شدهاند را شناسایی میکند؛ سپس از میان آن ها با بهره گرفتن از محصول تحقیقات انجامشده برای تشخیص هدف اظهارنظر، نظراتی که در رابطه با کالای مورد نظر بیان شدهاند را جدا میکند؛ بعد از آن مثبت یا منفی بودن گرایش این نظرات را با بهره گرفتن از محصول بدستآمده از تحقیقات مربوط به “تشخیص گرایش احساس” تعیین میکند؛ و نهایتاً با بهره گرفتن از محصول بدستآمده از تحقیقات انجامشده در رابطه با خلاصهسازی نتایج حاصل را خلاصهسازی کرده و به کاربر نمایش میدهد. مثالهای دیگری از نیازهایی متنوعی که کاربران مختلف میتوانند با در اختیار داشتن چنین سیستمی به آن ها دستیابی پیدا کنند عبارتند از : یافتن اشخاصی که در رابطه با یک هدف خاص دارای نظر مثبت هستند، یافتن نظرات منفی که در رابطه با هدفی خاص و در یک بازهی زمانی خاص بیان شدهاند، و یافتن گرایش کاربرانی که در یک منطقهی خاص سکونت دارند و در محدودهی سنی خاصی هستند نسبت به یک موضوع اجتماعی.
1-2. اهداف تحقیق
بر اساس ضرورتی که برای کار در حوزهی تشخیص گرایش احساس در نظرات کاربران بویژه در زبان فارسی ذکر شد در فصل چهار از این پروژه به این موضوع میپردازیم و سعی در ردهبندی[13] گرایش نظرات کاربران در غالب دو ردهی مثبت و منفی خواهیم داشت.
بنابر [2] این مسئله میتواند در قالب یک مسئلهی “یادگیری تحت نظارت[14]” بیان شود که دارای ردههای مثبت، منفی، و خنثی است و دادههای استفادهشده (برای آموزش[15] و آزمایش[16]) در تحقیقات موجود در این رابطه، اغلب نظراتی است که کاربران در مورد کالاها اظهار کردهاند. مزیت استفاده از این دادهها آماده بودن آن ها به دلیل مشخص بودن مثبت، منفی، یا خنثی بودن آن ها ذکر شده است.
برای فراهم کردن دادههای مورد بررسی در این پایاننامه، پس از بررسی زمینههای گوناگون نظیر نظرات کاربران در شبکههای اجتماعی، و نظرات کاربران در مورد گوشیهای موبایل، نهایتا نظرات کاربران در یکی از پربازدیدترین پایگاههای خبری یعنی پایگاه خبری تابناک انتخاب گردید. بهروز بودن و متنوع بودن اخبار درجشده در این پایگاه بستر مناسبی برای ارزیابی نظرات مردم در رابطه با موضوعات گوناگون از قبیل سیاسی، اجتماعی، و اقتصادی را فراهم میکند.
بهطور خلاصه هدف از کار انجامشده در فصل چهار از این پایاننامه تشخیص مثبت یا منفی بودن گرایش احساس موجود در نظرات کاربران سایت خبری پربازدید تابناک با بهره گرفتن از برخی ردهبندهای شناختهشده و مشخصه های جدید ارائهشده است. در این راستا تلاش میشود تا قابلیت ردهبندهای مورد استفاده و حالات و ترکیبهای گوناگون مشخصه های معرفیشده مورد بررسی قرار گیرند.
در راستای نیاز به استفادهی مجتمع از دستاوردهای تحقیقات مختلف زیرمجموعهی حوزهی کاوش در نظرات و تحقیقات حوزههای دیگر و ارائه خدمات ترکیبی مورد درخواست کاربران که در بخش 1-2 مطرح شد، هدف از فصل سه ارائه ایدهی جدیدی در حوزهی کاوش در نظرات است که به رفع این نیاز کمک کند. در این فصل تلاش خواهد شد تا با در کنار هم قرار دادن محصولات تحقیقات انجامشده در حوزهی کاوش در نظرات و برخی حوزههای مرتبط پردازش متن، هماهنگی میان آن ها، الهام گرفتن از معماری موتورهای جستجوی دیگر، و ارائه نوآوری، ایده و معماری پیشنهادی برای سیستمی تحت عنوان “موتور جستجوی نظرات” ارائه شود.
[1] Weblog
[2] Social Network
[3] Data Mining
[4] Opinion Mining
[5] Text Mining
[6] Tokenization
[7] Pos Tagging
[8] Sentiment Classification
[9] Sentiment Analysis
[10] Sentiment Polarity Identidfication
[11] Sentiment Orientation Identification
[12] Sentiment Orientation of Reviews
[13] Classification
[14] Supervised Learning
[15] Train
[16] Test
ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است
متن کامل را می توانید دانلود نمائید
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-03] [ 01:17:00 ب.ظ ]
|