مقالات علمی و آموزش های کاربردی

شبکه های تورین محاسباتی (گرید) زمینه‌ای را فراهم آورده است که بتوان از منابع ناهمگن در نقاط مختلف جغرافیایی برای حل مسائل پیچیده علمی، مهندسی و تجارت استفاده کرد. عملیات زمانبندی نقش کلیدی در عملکرد گرید ایفا می کند. بدلیل پویایی منابع و تخمین نادقیق زمان اجرایی و … عملیات زمانبندی باید مکانیسم هایی را برای پشتیبانی از تحمل خطا، افزایش بهره وری از منابع و کاهش زمان اتمام کارها استفاده کند، که به آن زمانبندی مجدد گویند. در این پایان نامه دو الگوریتم زمانبندی کارهای مستقل و یک الگوریتم زمانبندی جریان کارها با در نظر گرفتن پویایی محیط ارائه شده که اهداف آنها کاهش زمان اجرا، افزایش بهرهوری از منابع، ایجاد توازن بار و پشتیبانی از تحمل خطا می باشد.

فصل اول: مقدمه

1-1- مقدمه

اصطلاح “گرید” در اواسط دهه 1990 مطرح شده و زیر ساخت محاسبات گرید (محاسبات شبکه) در زمینه علم و مهندسی پیشرفته پیشنهاد شد [1]. ایده اصلی محیط گرید به اشتراک گذاری منابع محاسباتی است. امروزه، اکثر مردم بیشتر از حد نیاز، قدرت محاسباتی بر روی سیستمهای کامپیوتری خود دارند. از این رو کشف منابع محاسباتی توزیع شده در سطح جغرافیایی و استفاده از آنها برای حل برنامه های کاربردی که قدرت محاسباتی بالایی نیاز دارند و باید در مدت زمان معین با هزینه مشخص اجرا شوند، ترویج پیدا کرد. چنین زیر ساخت هایی گرید محاسباتی نامیده می شود، و منجر به محبوبیت حوزهای به نام محاسبات گرید شده است [1].

از اتصال منابع محاسباتی مانند رایانههای شخصی، ایستگاههای کاری، خوشه ها، سرویس دهندهها، ابررایانهها و …، توزیع شده در مناطق مختلف جغرافیایی شبکه های تورین محاسباتی (گرید) پدید آمده است که به عنوان یک سکوی محاسبات برای حل مسائل مقیاس بزرگ در دانشگاه، پژوهش و

صنعت مورد استفاده قرار میگیرد[2].

یکی از عملیات اصلی تضمین کننده کارایی در شبکه های تورین محاسباتی، تخصیص منابع به کارها میباشد. عملیات تخصیص منابع باید مکانیسمهایی را برای پشتیبانی از تحمل خطا، اطمینان از اجرای حتمی کارها، افزایش بهرهوری از منابع و کاهش زمان اتمام کارها ارائه دهد. زمانبندی در محیط گرید، با توجه به توزیع جغرافیایی منابع و کاربران، نوسانات منابع، الزامات کیفیت سرویس از برنامه های کاربردی و محدودیتهای اعمال شده توسط صاحبان منابع، جزء مسائل NP-complete می باشد[3].

در زمانبندی وظایف مستقل، هدف افزایش عملکرد کل سیستم و در زمانبندی وظایف با وابستگی، هدف کاهش زمان اجرا کارها، بدون نقض محدودیت اولویت آنها میباشد. با کم کردن زمان اجرا کارها، باعث افزایش بهرهوری از منابع شده، در نتیجه بهبود در عملکرد کل سیستم را خواهیم داشت.

در دهه گذشته زمانبندی کارها (وظایف با وابستگی و مستقل) درون محیط گرید توجه بسیاری از محققین را به خود جلب کرده است. به دلیل پویایی محیط گرید، عملیات زمانبندی باید مرتبا با بررسی کردن حالت جاری سیستم، اقدام به بروزرسانی زمانبند خود نماید. عملیات بروزرسانی با رخداد رویدادی در گرید به دلیل تخمین نادقیق زمان اجرایی، اضافه یا حذف شدن منابع، رخ می دهد. در واقع هدف اصلی از اعمال زمانبندی مجدد افزایش بهره وری از منابع، اجرای قطعی و کاهش زمان اتمام کارها می باشد به این صورت که در ابتدا براساس وضعیت جاری منابع و کارها زمانبندی صورت می پذیرد و در صورت رخداد رویدادهای فوق زمانبندی مجدد براساس منابع موجود و وضعیت کارهای باقی مانده صورت می پذیرد.

2-1- ضرورت اجرا

پژوهشهای زیادی بر روی رابطه بین تخمینهایی که توسط کاربر به سیستم مدیریت منبع میدهد و زمان واقعی اجرای کارها صورت گرفته است و نشان داده شده که تخمینهایی که توسط کاربر فراهم میشوند در اغلب موارد از دقت کافی برخوردار نیستند. دلیل این موضوع را میتوان چنین دانست که در سیستمهای مدیریت منابع محلی، هنگامی که زمان اجرای تخمین زده شده کار به پایان برسد، کار خاتمه مییابد (فسخ می شود)، بنابراین کاربران اصولا زمان اجرای کار را بیش از حد واقعی تخمین می زنند تا از اتمام کامل کار مطمئن باشند. در پژوهشهای مختلفی تأثیر تخمینهای کاربر بر روی کارائی سیستم ارزیابی شده است و نتایج حاکی از آن است که تخمینهای غیرصحیح کاربر باعث کاهش کارائی سیستم می شود. علاوه بر این در مقاله [4] که در سال 2009 ارائه شد، نویسندگان نشان دادند که سیستمهای مدیریت منابع محلی توانایی کنار آمدن و کنترل حجم زیادی از واگذاریها را ندارند. در مقاله]5[ که در سال 2009 ارائه شد تاثیر تغییر پذیری مجموعه کاریها بر روی سیستم مدیریت منابع محلی مورد بررسی قرار گرفت و نتایج نشان داد که این تغییر پذیری باعث تصمیمات زمانبندی بدتر می شود. زمانبندی مجدد سه هدف اساسی را دنبال می کند: افزایش کارایی زمانبند، کاهش زمان اجرایی و ارائه تحمل خطا.

زمانبندی در محیط گرید بدلیل پویایی از دو مرحله تشکیل می شود در مرحله اول زمانبند براساس حالت جاری منابع، و زمان اجرایی تخمینی یک نگاشت از کارها روی منابع را بوجود میآورد. در مرحله دوم با رخداد یک رویداد، زمانبند، زمانبندی مجددی را براساس کارها، منابع و وابستگی های موجود بین کارها، صورت میدهد و نگاشت جدیدی را تولید می کند.

3-1- هدف از اجرای پایان نامه

با توجه به اینکه منابع گرید غیر اختصاصی بوده و تخمینهای نادقیق ارائه شده توسط کاربران در عملکرد گرید تاثیر بسزایی دارد زیرا کارهایی که بین آنها وابستگی داده وجود دارد (داده تولید شده توسط این کار، نیاز کار دیگری جهت شروع میباشد) و اگر در اینجا نتوانیم اجرای قطعی کار را تضمین کنیم (بدلیل خرابی منبع) اجرای کارهای پیشرو نیز امکان پذیر نمی باشد همچنین این تخمینهای نادقیق نیز باعث کاهش کارایی گرید میگردد به همین دلیل نیاز به نظارت بر وضعیت منابع و کارها و اعمال نگاشت جدید (زمانبندی مجدد) با رخداد رویدادی در گرید (تغییری در وضعیت منابع و یا زمان اجرایی کار) میباشد.

اهداف زمانبند و زمانبند مجدد گرید افزایش بهرهوری از منابع، کاهش زمان اتمام آخرین کار، افزایش کارایی، قطعیت در اجرای کارها و ایجاد توازن بار میباشد در این پایان نامه نیز سعی در ارائه یک الگوریتم زمانبند مناسب با توجه به همین اهداف داریم.

ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است

متن کامل را می توانید دانلود نمائید

موضوعات: بدون موضوع لینک ثابت

[چهارشنبه 1399-10-03] [ 12:20:00 ب.ظ ]

ارسال نظر »

پایان نامه ارشد مهندسی نرم افزار: یک روش چندبعدی برای پیشنهاد دهنده های آگاه از زمینه در تجارت سیار

1-3 موضوع تحقیق………………………. 4

1-4 اهمیت و ارزش تحقیق………………………. 6

1-5 اهداف تحقیق………………………. 6

1-6 کاربرد نتایج تحقیق………………………. 6

1-7 مروری بر ساختار پایان نامه……………………… 7

فصل دوم: تجارت سیار

2-1 مقدمه……………………… 8

2-2 تجارت سیار…………………….. 9

2-3 دسته بندی ادبیات تحقیقاتی تجارت سیار…… 11

2-3-1 حوزه تحقیقات نظری………………………. 11

2-3-2 شبکه بیسیم……………………… 12

2-3-3 میان افزار سیار…………………….. 13

2-3-4 زیربنای کاربری بیسیم……………………… 14

2-3-5 کاربردهای تجارت سیار…………………….. 14

2-4 فناوریهای تجارت سیار…………………….. 16

2-5 استانداردهای بیسیم……………………… 18

2-6 بستر پیادهسازی کاربردهای تجارت سیار ………………. 19

2-6-1 زبانهای برنامه نویسی موبایل………………………. 22

2-7 جمعبندی………………………. 23

فصل سوم: زمینه3-1 مقدمه……………………… 25

3-2 زمینه……………………… 26

3-2-1 تعاریف پارامتریک……………………….. 26

3-2-2 تعاریف کلی………………………. 27

3-3 دسته بندی اطلاعات زمینه……………………… 28

3-4 آگاهی از زمینه……………………… 31

3-5 طراحی زمینه……………………… 32

3-6 جمعبندی………………………. 33

فصل چهارم: سیستمهای پیشنهاددهنده

4-1 مقدمه……………………… 35

4-2 بررسی عملکرد سیستمهای پیشنهاددهنده…………………….. 36

4-2-1 روشهای مبتنی بر محتوا…………………….. 38

4-2-1-1 مشکلات و محدودیتهای روشهای مبتنی بر محتوا …………. 41

4-2-2 روشهای فیلترسازی مشارکتی………………………. 42

4-2-2-1 مشکلات و محدودیتهای روشهای فیلترسازی مشارکتی………. 46

4-2-3 روشهای ترکیبی………………………. 48

4-3 ارزیابی سیستمهای پیشنهاددهنده…………………….. 49

4-4 بسط قابلیتهای سیستمهای پیشنهاددهنده…………………….. 51

4-4-1 شرکتدادن شناختی جامع از کاربران و اقلام در فرایند پیشنهاددهی……. 51

4-4-2 امتیازگذاری چندمعیاری………………………. 52

4-4-3 پیشنهاددهنده های غیرتداخلی………………………. 53

4-4-4 انعطاف پذیری………………………. 53

4-4-5 توسعه شاخص های ارزیابی………………………. 544-4-6 استفاده از اطلاعات زمینه در پیشنهاددهنده ها…………………….. 55

4-4-7 سایر گزینه ها برای بسط و توسعه سیستمهای پیشنهاددهنده ……. 55

4-5 جمعبندی………………………. 55

فصل پنجم: روش جدید چندبعدی برای پیشنهاددهی آگاه از زمینه

5-1 مقدمه………………………57

5-2 سیستمهای پیشنهاددهنده آگاهاززمینه در تجارت سیار……….. 58

5-3 مدلسازی اطلاعات زمینه……………………… 59

5-4 روش چندبعدی در سیستمهای توصیه گر سیار آگاه از زمینه……. 61

5-5 جمعبندی………………………. 68

فصل ششم: ارزیابی

6-1 مقدمه……………………… 69

6-2 روش ارزیابی………………………. 69

6-2-1 پیادهسازی سیستم جمع آوری داده…………………….. 70

6-3 پیاده سازی روش پیشنهاددهی………………………. 72

6-3-1 پیاده سازی روش پیشنهاددهی دوبعدی………………………. 73

6-3-2 پیاده سازی روش پیشنهاددهی چندبعدی………………………. 78

6-4 جمعبندی………………………. 82

فصل هفتم: جمعبندی و راهکارهای آینده

7-1 مقدمه……………………… 84

7-2 راهکارهای آینده ……………………..85

منابع و مآخذ………………………. 87

چکیده:

استفاده از زمینه، به عنوان اطلاعات پویایی که توصیفگر وضعیت کاربران و اقلام بوده و بر فرایند تصمیم گیری و انتخاب کاربران تاثیرگذار است، توسط سیستمهای پیشنهاددهنده در تجارت سیار، در جهت ارتقاء کیفیت مناسب پیشنهاددهی ضروری است. در این تحقیق یک روش جدید چندبعدی برای پیشنهاددهی آگاه از زمینه در تجارت سیار ارائه شده است. در این روش اطلاعات کاربران، اقلام، پارامتر های زمینه و ارتباط میان آنها در یک فضای چندبعدی نمایش داده می شود که به آن مکعب چندبعدی امتیازات گفته می شود. در این فضا زمینه های مشابه به طور جداگانه برای هر کاربر شناسایی میشوند که این کار با شناسایی الگوهای مصرف متفاوت کاربران در شرایط زمینهای مختلف انجام می شود. با بدست آوردن این اطلاعات، یک فضای جدید دوبعدی ایجادشده و پیشنهاددهی نهایی با بهره گرفتن از یک روش فیلترسازی مشارکتی در این فضا انجام میگیرد. ارزیابی روش از طریق پیاده سازی آن در یک سیستم پیشنهاددهی محصولات غذایی رستورانها شامل پارامترهای زمینهای روز، زمان، آب و هوا و همراه علاوه بر پارامترهای کاربر و اقلام و مقایسه آن با روش سنتی پیشنهاددهی و بدون درنظرگرفتن اطلاعات زمینه انجام گرفته است. برای پیادهسازی روش فیلترسازی مشارکتی از شبکه های خودسازمانده استفادهشدهاست. شبکه های خودسازمانده، نوعی از شبکه های عصبی بدون ناظر هستند. مقایسه و ارزیابی نتایج با بهره گرفتن از محاسبه شاخص F1 که یکی از شاخص های استاندارد و پر استفاده برای ارزیابی پیشنهاددهنده ها است، انجام گرفته است. بر اساس این نتایج، روش پیشنهاددهی چندبعدی در حدود شانزده درصد بهبود نسبت به روش سنتی پیشنهاددهی را نمایش میدهد که همین مساله کارایی روش را از نظر کیفیت پیشنهاددهی تایید می کند.

فصل اول: مقدمه

1-1- مقدمه

سیستمهای پیشنهاددهنده در تجارت سیار از جمله موضوعات پراهمیت سالهای اخیر بوده اند که با ظهور تکنولوژیهای بیسیم و تسهیل حرکت تجارت الکترونیکی از محیطهای سیمی به سوی بیسیم مورد توجه قرارگرفتهاند. تجارت سیار بهمعنای انجام فعالیتهای تجارتالکترونیک از طریق محیطهای بیسیم، به طورخاص اینترنت بیسیم، و وسایل دستی سیار میباشد که با پیدایش تکنولوژی بیسیم در عرصه اینترنت و استفاده روزافزون از وسایل سیار توجه به آن رو به افزایش است[1,2]. به کاربردهای تجارت سیار دو خصوصیت ویژه تحرک[1] و دسترسی وسیع[2] نسبت دادهشدهاست[1,3] که اولین خصوصیت بر امکان از بین رفتن محدودیتهای مکانی و دومین خصوصیت بر امکان از بین رفتن محدودیتهای زمانی در استفاده کاربران از خدمات این نوع کاربردها تاکید دارد[1,3,4,5]. اینکه کاربران برای انجام فعالیت هایی چون بانکداری الکترونیکی یا خرید الکترونیکی محصولات، قادر به جایگزینی وسایلی چون تلفنهای سیار و همراههای شخصی دیجیتال (پی.دی.اِی)[3] بهجای کامپیوترهای شخصی باشند، تسهیلات زیادی را برای آنها و فرصتهای جدیدی را نیز برای کسب وکارها فراهمخواهدکرد و لزوم توجه به این عرصه را برای محققان نمایان میسازد[1,3].

اما پیادهسازی سیستمهای پیشنهاددهنده در محیطهای سیار بدون درنظرگرفتن پارامترهای تاثیرگذار در این محیط چندان مناسبنخواهدبود. مجموعه این پارامترها، اطلاعات زمینه را تشکیل می دهند [6].

عملکرد سیستمهای پیشنهاددهنده معرفی منابع مورد نیاز کاربران به آنهاست. این منابع میتوانند مواردی مانند اطلاعات خاص مورد نیاز کاربر و یا کالاهایی مانند کتاب یا فیلم مورد علاقه یک کاربر را از میان انبوه کالاهایی که کاربر با اطلاعات آنها روبروست، دربرگیرند[7,8,9]. درسیستمهای پیشنهاددهنده، سه مجموعه داده اصلی یعنی مجموعه کاربران ©، مجموعه اقلام قابل توصیه(S) (مانند کتاب، فیلم، موسیقی و غیره) و مجموعه داده هایی که رابطه میان دو مجموعه قبلی را تعریف می کنند، وجوددارند. مجموعهS می تواند شامل صدها، هزارها و حتی میلیونها کالا در کاربردهای مختلف بوده و به طور مشابه مجموعه C نیز می تواند چنین وضعیتی را داشته باشد. ارتباط میان دو مجموعهC و S مبتنی بر ساختار امتیازگذاری است که میزان مفید بودن یا مورد علاقه بودن کالا را برای کاربر مشخص می کند. این ارتباط با تابعی تحت عنوان تابع سودمندی، u، به صورت رابطه زیر تعریف می شود.

که در آن Ratings، مجموعه مرتبی مانند اعداد صحیح غیرمنفی یا مجموعه اعداد حقیقی در بازهای معین میباشد.

در سیستمهای پیشنهاددهنده مقادیر u معمولاً فقط بر روی زیر مجموعه ای از دامنه C×S تعریفشدهاست و نه بر تمام آن و قسمت های نامشخص این دامنه را باید با استفاده از داده های موجود بهصورت تخمینی مشخص نمود. هدف نهایی سیستمهای توصیهکننده با ارائه پیشنهاد اقلام با بالاترین امتیازات تخمینی به کاربران محقق می شود به طوریکه برای هر کاربر ، اقلام با حداکثر میزان سودمندی انتخاب و معرفی میگردد[7].

تا به امروز روشهای پیشنهاددهی زیادی ارائه شدهاست که این روشها و متدولوژیها در دستهبندیهای زیر قرار میگیرند[7,9,10]:

– مبتنی بر محتوا[1] : در این گروه از روشها، عمل پیشنهاددهی با بهره گرفتن از یافتن اقلامی انجام میگیرد که بیشترین تشابه را با اقلامی داشته باشند که درگذشته موردعلاقه کاربر بوده اند. به عبارت دیگر u(c,s)، سودمندی کالای s برای کاربر c، بر اساس کلیه مقادیر موجود u(c,si) هایی که si مشابه به s بوده و si جزء کالاهای مورد علاقه کاربر هستند، برآورد می شود.

– فیلترسازی مشارکتی : در این گروه از روشها، عمل پیشنهاددهی با بهره گرفتن از یافتن اقلامی انجام میگیرد که مورد علاقه کاربران با سلایق مشابه کاربر بوده اند. کاربران با سلایق مشابه یعنی کاربرانی که اقلام یکسانی را امتیازدهی مشابه کرده باشند. بهعبارت دیگر u (c, s) بر اساس مقادیر موجودu(cj ,s) بدست می آید که cj کاربران مشابه با c میباشند.

– مدل ترکیبی[2]: روشهایی که دو روش مبتنیبرمحتوا و فیلترسازی مشارکتی را ترکیب می کنند و به این صورت از مزایای هر دو روش در جهت شناسایی و معرفی کالاها بهره میگیرند.

در نگاهی دیگر روشهای پیشنهاددهی، اعم از مبتنی بر محتوا و فیلترسازی مشارکتی به دو دسته روشهای مبتنی بر حافظه[3]و مبتنی بر مدل[4] تقسیم میشوند. درمقایسه با الگوریتمهای مبتنی بر حافظه، الگوریتمهای مبتنی بر مدل، با بهره گرفتن از روشهای یادگیری ماشین[5] مدلی را با بهره گرفتن از مجموعه امتیازات موجود ایجاد کرده و از آن بهمنظور پیشگویی امتیازات استفاده می کنند[7,10,11].

1-2 موضوع تحقیق

موضوع این تحقیق، ارائه روشی برای پیشنهاددهی آگاه از زمینه در تجارت سیار میباشد. با پیدایش تکنولوژی بیسیم در عرصه اینترنت و استفاده روزافزون از وسایل سیار، پیادهسازی سیستمهای پیشنهاددهنده در محیطهای سیار با توجه به محدودیتهای خاص آن چون هزینهبر بودن زمان اتصال و تبادل داده، محدودیت پهنای باند، کیفیت پایین اتصال و محدودیتهای ورودی و خروجی وسایل سیار، نیاز به بررسی بیشتر را در جهت ارائه اطلاعات مرتبطتر و شخصیسازیشدهتر میطلبد. بررسی تاثیر اطلاعات زمینه بهعنوان شرایط و محیط دربرگیرنده کاربر و بهعنوان اطلاعاتی که بر فرایند تصمیم گیری وی تاثیرگذارند، برخروجی اینگونه کاربردها، مسالهای است که در این تحقیق مورد بررسی قرار گرفتهاست.

1-3 پیشینه تحقیق

ظهور تکنولوژیهای بیسیم و استفاده رو بهافزایش وسایل سیار، فرصتهای زیادی را پیش روی کاربردهای تجارت الکترونیک قراردادهاست. با توجه به محدودیتهای خاص محیطهای سیار، ارائه اطلاعات بهصورت شخصیسازیشدهتر و سفارشیشدهتر یکی از اهداف مهم کاربردهای تجارت سیار است. درنظرگرفتن اطلاعات زمینه بهعنوان شرایط و محیط دربرگیرنده کاربر و بهعنوان اطلاعاتی که بر فرایند تصمیم گیری وی تاثیرگذارند، در ارائه خروجی اینگونه کاربردها از جمله مواردی است که میتوان از آن در جهت ارائه اطلاعات مرتبطتر به کاربران بهره گرفت.

سیستمهای پیشنهاددهنده همواره از جمله موضوعات پر اهمیت در حوزه تجارت الکترونیک بوده است. سیستمهای پیشنهاددهنده سیار آگاه از زمینه در آغاز راه هستند. دسته مهمی از سیستمهای آگاه از زمینه را سیستمهای آگاه از مکان تشکیل میدهند. یانگ، چنگ، و دایا[12]، یک سیستم پیشنهاددهنده آگاه از مکان برای محیطهای سیار ارائهدادهاند که هدف آن توصیه وبسایت فروشندگان با در نظرگرفتن علایق و پیشفرضهای مشتری و همچنین فاصله مکانی وی با مکان فیزیکی مشخصشده در وبسایتها میباشد. در روش مزبور، دو فاکتور فوق به طور جداگانه محاسبه شده و سپس بر اساس ترکیبی از آنها به پیشنهاد وبسایتها پرداخته می شود. یکی دیگر از این نوع سیستمها پروکسیمو[13] است که یک سیستم پیشنهاددهنده آگاه از مکان برای محیطهای داخلی چون موزهها و گالریها است. این سیستم بر اساس علایق و پیشفرضهای کاربر به پیشنهاد اقلام پرداخته و مکان اقلام را بر روی نقشهای بر روی وسیله همراه کاربر نمایش میدهد.

استفاده از سایر اطلاعات زمینهای علاوهبر مکان نیز مورد توجه توسعهدهندگان این نوع سیستمها قرارگرفتهاست. پخش موسیقی یکی از حوزه های کاربردی پرمصرف در میان کاربران سیار میباشد و به همین دلیل استفاده از پیشنهاددهندههای آگاه از زمینه در این حوزه مورد توجه قرارگرفته است. از آنجایی که تاثیر موسیقی بر روح و جسم انسان ثابت شدهاست، انتخاب موسیقی با توجه به شرایط می تواند وضعیت دوستداشتنیتری را فراهمکند و افراد را در انجام فعالیتهایشان یاری رساند. مثلاً موسیقی می تواند کارایی فرد را در حال انجام تمرینات فیزیکی بهبود بخشد، اضطراب را کاهش دهد و میزان یادگیری را بهبود بخشد. [14] یکی از تحقیقاتی است که در این حوزه ارائهشدهاست. در این تحقیق علاوهبر بررسی روشهای فیلترسازی مبتنیبر زمینه و مرور پیشنهاددهندههای سیار آگاه از زمینه موسیقی، پیشنهاددهنده سیار آگاه از زمینه AndroMedia ارائه شدهاست. پیشنهادات با توجه به زمینه جاری کاربر که با بهره گرفتن از حسگرهای بلوتوث در سمت برنامه مشتری بدست میآیند و همچنین سلایق کاربر تهیه میشوند. همچنین در مرجع [15] نیز پیشنهاددهی آگاه از زمینه موسیقی در محیطهای سیار مورد بررسی قرارگرفتهاست. در تحقیق پارک، یو و چو[16] نیز یک سیستم آگاه از زمینه موسیقی با بهره گرفتن از شبکه های بیزین فازی و تئوری سودمندی ارائهشدهاست. فرایند پیشنهاددهی تحلیل شده و سودمندی آن مورد ارزیابی قرارگرفتهاست.

گردشگری نیز یکی از حوزه های جذاب برای پیادهسازی پیشنهاددهندههای سیار آگاه از زمینه میباشد. امروزه گردشگران انتظار دارند که دسترسی شخصی به اطلاعات گردشگری در هر زمان، هر مکان و در هر شرایطی را داشتهباشند. راهنماهای گردشگری سیار، چنین اطلاعاتی را در اختیار کاربران قرار میدهند. در مرجع [17] خلاصهای از کارهای انجامشده در زمینه راهنماهای گردشگری سیار تحت وب انجام گرفتهاست. همچنین در مرجع[18] تاثیر آگاهی از زمینه در سیستمهای اطلاعاتی گردشگری سیار مورد بررسی قرار گرفتهاست. در [19] نیز یک کاربرد توریستی سیار با نام COMPASS ارائهشدهاست. در این تحقیق به بررسی ترکیب آگاهی از زمینه با سیستمهای پیشنهاددهنده پرداخته شدهاست. پارامترهای زمینهای این تحقیق شامل زمان و مکان میباشند. این سیستم خدمات خود را با نیازهای کاربر که بر اساس علایق و زمینه جاری وی مشخص می شود، تطبیق میدهد.

در [20] نیز یک سیستم پیشنهاددهنده تصاویر با بهره گرفتن از یک روش داده کاوی که ترکیبی از روشهای مبتنیبرمحتوا و مبتنیبر اطلاعات زمینه میباشد ارائهشدهاست. اطلاعات زمینه استفادهشده در این تحقیق شامل زمان و مکان هستند. لی، ونگ، جنگ و دای[21]، یک سیستم توصیهکننده آگاه از زمینه برای کاربردهای تجارت سیار ارائهدادهاند. در این تحقیق از مدل چندبعدی موجود در سیستمهای OLAP برای نمایش فضای توصیهگری و از روش مبتنی بر کاهش فضا بهمنظور کاهش فضای توصیهگری به فضای دوبعدی و انجام عملیات توصیهگری در فضای مزبور استفادهکرده اند.

استفاده از آنتولوژی و وب معنایی در سیستمهای پیشنهاددهنده سیار آگاه از زمینه نیز در تحقیقات بسیاری مورد توجهقرارگرفتهاست[22,23,24]. تکنولوژیهای وب معنایی، دسترسی هوشمند و کارا به اطلاعات را بهبود بخشیدهاند. از آنتولوژی میتوان برای مدلسازی زمینه و همچنین برای مدلسازی ارتباط زمینه با سایر مجموعهداده ها استفادهنمود. در تحقیق حاضر، یک روش جدید پیشنهاددهی آگاه از زمینه در تجارت سیار ارائهشدهاست.

[1] Content-Based

[2] Hybrid Model

[3] Memory-Based

[4] Model-Based

[5] Machine learning

[1] Mobility

[2] Broad reach

[3] Personal Digital Assistant (i.e. PDA)

متن کامل را می توانید دانلود نمائید

موضوعات: بدون موضوع لینک ثابت

[ 12:19:00 ب.ظ ]

ارسال نظر »

پایان نامه ارشد رشته نرم افزار کامپیوتر: مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

1-1- مقدمه

به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.

ترجمه ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.

ترجمه ماشینی را می‌توان به این صورت تعریف کرد: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با بهره گرفتن از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌شود. غالبا ترجمه‌های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ترجمه ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته شود، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های ترجمه که از فناوری ترجمه ماشینی استفاده می‌کنند اما آنها را در کنترل خود قرار می‌دهند، استفاده می‌کنند.

ترجمه ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» است. تا کنون روش‌های مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ترجمه ماشینی موجود را در قالب دسته‌بندی که در [1] آمده است نشان می‌دهد.

1-1-1- ترجمه ماشینی مبتنی بر فرهنگ لغت

این نوع ترجمه ماشینی مبتنی بر مدخل‌های فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده می‌شود. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند [1].

2-1-1- ترجمه ماشینی مبتنی بر قانون

ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می‌شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرایند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.

– رویکرد مستقیم[1]: کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه می‌شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌شود.

– رویکرد انتقالی[2]: مدل انتقالی متعلق به نسل دوم ترجمه ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با بهره گرفتن از فرهنگ لغات دوزبانه و قوانین گرامری تولید می‌شود.

– میان زبانی[3]: این روش متعلق به نسل سوم ترجمه ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های ترجمه چندزبانه استفاده می‌شود. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می‌کند.

3-1-1- ترجمه ماشینی مبتنی بر دانش[4]این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایه‌ای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرایند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.

4-1-1- ترجمه ماشینی مبتنی بر پیکره[5]

رویکرد ترجمه ماشینی مبتنی بر پیکره‌های متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ترجمه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روش‌ها غلبه یافت. در این روش، دانش یا مدل ترجمه به طور خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می‌شود. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می‌کند، ترجمه ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روش‌های مبتنی بر پیکره در ادامه شرح داده می‌شوند.

ترجمه ماشینی آماری[6]

با اینکه ایده اولیه ترجمه ماشینی آماری توسط وارن ویور در سال 1941 معرفی شد، اما از سال 1993 که این روش توسط محققان آی بی ام مدل شد به طور گسترده‌ای مورد استفاده قرار گرفت؛ به طوری‌که در حال حاضر ترجمه ماشینی آماری رایج‌ترین رویکرد در ترجمه ماشینی به شمار می‌آید. در روش ترجمه ماشینی آماری از مدل‌های آماری استفاده می‌شود که پارامترهای این مدل‌ها از متون دوزبانه یا همان «پیکره‌های موازی» استخراج می‌شوند. به عبارت دیگر سیستم ترجمه ماشینی آماری، احتمالات ترجمه را از پیکره موازی می‌آموزد و با بهره گرفتن از این احتمالات برای جملات

ورودی که در فرایند آموزش دیده نشده‌اند، ترجمه‌ای مناسب تولید می‌کند. در این روش از دو مدل عمده به نام مدل‌های مبتنی بر کلمه و مدل‌های مبتنی بر عبارت استفاده می‌شود.

ترجمه ماشینی مبتنی بر مثال[7]

روش های ترجمه ماشینی مبتنی بر مثال، روش های مبتنی بر حافظه[8] نیز نامیده شده‌اند. ایده این روش از سال 1980 در ژاپن شروع شد. این نوع سیستم‌ها تلاش می‌کنند تا جمله‌ای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله ترجمه شده که قبلا ذخیره شده، ترجمه جمله ورودی را تولید کنند.

ایده اولیه در این روش، استفاده از ترجمه‌های انسانی موجود برای ترجمه متن‌های جدید است. لذا کافی است متون جدید به قطعه‌های کوچک شکسته شود و ترجمه معادل این قطعات، در پایگاه داده‌ای از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر تولید گردد. این روش دارای محدودیت دادگان می‌باشد. جمع‌ آوری مجموعه مثال‌های بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعه‌های محدودی از یک زبان استفاده می‌شود.

[1] Direct approach

[2] Transfer based

[3] Interlingua

[4] Knowledge based machine translation

[5] Corpus based machine translation

[6] Statistical Machine Translation (SMT)

[7] Example Based Machine Translation (EBMT)

[8] Memory based machine translation

متن کامل را می توانید دانلود نمائید

موضوعات: بدون موضوع لینک ثابت

[ 12:19:00 ب.ظ ]

ارسال نظر »

پایان نامه ارشد رشته نرم افزار: حفاظت از کپی غیر مجاز کپی رایت متون دیجیتال با بهره گرفتن از روش پنهان نگاری فاصله بین خطوط حامل

1-2-1- اﺻﻄﻼﺣﺎتدر پنهان نگاری…………………………………………………………………………………………….. 5

1-2-2- ﺗﺎرﯾﺨﭽﻪی پنهان نگاری ………………………………………………………………………………………………..5

1-3- تعریف رمزنگاری …………………………………………………………………………………………………….. 8

1-4- تفاوت رمزنگاری وپنهان نگاری …………………………………………………………………………… 8

1-5- تعریف نهان نگاری ……………………………………………………………………………………………….. 10

1-5-1- تاریخچه نهان نگاری ……………………………………………………………………………………….. 11

1-5-2- تفاوت نهان نگاری و پنهان نگاری …………………………………………………………………… 11

1-5-3- محیط میزبان ………………………………………………………………………………………………….. 11

1-6- طرح کلی الگوریتم های نهان نگاری ……………………………………………………………………… 12

1-7- آنالیزهای لازم جهت انتخاب روش نهان نگاری ……………………………………………………….. 12

1-8-پارامترهای ارزیابی الگوریتم های نهان نگاری ………………………………………………………………. 13

1-9-اساس کار روش های نهان نگاری ………………………………………………………………………………………….. 14

1-10-انواعنهان نگاری …………………………………………………………………………………………………………….. 14

1-11- استگاآنالیز یا کشف نهان نگاری ………………………………………………………………………………………… 15

1-12- حملات نهان نگاری ……………………………………………………………………………………………………….. 17

1-13- کاربردهای عملی نهان نگاری دیجیتال ……………………………………………………………………………….. 17

1-14- علائم حقنشر(کپیرایت)………………………………………………………………………………………………… 19

1-15- نهان نگاری دیجیتال در متن ………………………………………………………………………………….. 20

1-16- انواع روش های نهان نگاری درمتن به طور کلی ……………………………………………………… 21

1-16-1- روشدرج فاصله ……………………………………………………………………………………………………….. 21

1-16-2- روشمعنایی ……………………………………………………………………………………………………………… 22

1-16-3- روشمحتوایی …………………………………………………………………………………………………………… 22

1-16-4- مبتنی برخصوصیات ……………………………………………………………………………………………………. 23

فصـل دوم: مروری بر ادبیات و پیشینه تحقیق

2-1- مروری بر چندین روش نهان نگاری در متون دیجیتال……………………………………………….. 24

2-2- روش درج نقطه……………………………………………………………………………………………………………….. 24

2-2-1- شرح کلی روش…………………………………………………………………………………………………………… 24

2-2-2- نتیجه گیری …………………………………………………………………………………………………………………. 26

2-3- روش تغییر شکل حروف…………………………………………………………………………………………………….28

2-3-1- شرح روش …………………………………………………………………………………………………………………..28

2-3-2- نتیجه گیری ………………………………………………………………………………………………………. 30

2-4 درج کاراکتر کشش بین کاراکترهای کلمات……………………………………………………………………. 31

2-4-1شرح روش …………………………………………………………………………………………………………………….31

2-4-2- نتیجه گیری ………………………………………………………………………………………………………. 33

2-5- روش توسعه یافته درج کاراکتر کشش بین کاراکترهای کلمات……………………………………….. 33

2-5-1شرح روش ……………………………………………………………………………………………………………………. 33

2-5-2- نتیجه گیری ………………………………………………………………………………………………………………….34

2-6- روش بهبود یافته “لا”…………………………………………………………………………………………….. 35

2-6-1- شرح روش ………………………………………………………………………………………………………… 35

2-6-2- نتیجه گیری ……………………………………………………………………………………………………….. 36

2-7- روش درج کاراکتر بدون طول بین کلمات ………………………………………………………………. 36

2-7-1-شرح روش ………………………………………………………………………………………………………… 36

2-7-2- نتیجه گیری …………………………………………………………………………………………………… 37

2-8- روش نهان نگاری بلوکی بین کلمات ……………………………………………………………………. 38

2-8-1- شرح روش …………………………………………………………………………………………………………38

2-8-2- نتیجه گیری ………………………………………………………………………………………………………………….39

2-9- روش گروه بندی کاراکترهای متن(NP-UniCh)……………………………………………………………..

2-9-1- شرح روش …………………………………………………………………………………………………….. 40

2-9-2- نتیجه گیری ……………………………………………………………………………………………….. 41

2-10- روش گروه بندی دوبیتی کاراکترهای متن ……………………………………………………………. 42

2-10-1- شرح روش ……………………………………………………………………………………………………. 42

2-10-2- نتیجه گیری ……………………………………………………………………………………………………42

2-11- استفاده از شکل دیگر کاراکترها در فونتهای متفاوت …………………………………………… 43

2-11-1-شرح روش ………………………………………………………………………………………………………………… 43

2-11-2- نتیجه گیری ………………………………………………………………………………………………… 45

2-12- نهان نگاری براساس تغییر زاویه کلمات ………………………………………………………………… 45

2-12-1شرح روش ………………………………………………………………………………………………………………….. 45

2-12-2- نتیجه گیری ………………………………………………………………………………………………………………..47

2-13- درج کاراکترهای نامحسوس درمتون لاتین ………………………………………………………………………….. 47

2-13-1- شرح روش …………………………………………………………………………………………………………………47

2-13-2- نتیجه گیری ………………………………………………………………………………………………………………..49

2-14- درج فاصله های خاص در موقعیت های مختلف …………………………………………………………………. 50

2-14-1- شرح روش …………………………………………………………………………………………………………………50

2-14-2نتیجه گیری …………………………………………………………………………………………………………………. 51

فصـل دوم: روش اجرای تحقـیـق

3-1- کلیات روش پیشنهادی ……………………………………………………………………………………………………….53

3-2- مروری بر استاندارد یونیکد …………………………………………………………………………………….. 54

3-2-1- تعیین کدهای کاراکترها ………………………………………………………………………………… 54

3-2-2- انواع فرم های انکدینگ ……………………………………………………………………………………. 55

3-2-3- یونیکد فارسی/عربی ……………………………………………………………………………………….. 55

3-2-4- کاراکترهای یونیکد کنترلی ……………………………………………………………………… 56

3-3- فرایند کلی نهان نگاری و استخراج پیام در این رساله ……………………………………………….. 56

3-4- شرح روش نهان نگاری در این رساله …………………………………………………………………………… 58

3-4-1-تبدیل پیام رمز به معادل دودویی ………………………………………………………………………………………58

3-4-2درج و نشانه گذاری پیام رمز ……………………………………………………………………………………………..59

3-4-3کشف و استخراج پیام رمز ……………………………………………………………………………………………….. 60

فصـل چهارم: تجزیه و تحلـیـل داده ها

4-1-بررسی آزمایشات الگوریتم پیشنهادی ………………………………………………………………………………….. 62

4-2-نتایج و بحث برروی نتایج ……………………………………………………………………………………….. 62

4-3- بررسی پارامترهای نهان نگاری براساس نتایج اجرای الگوریتم………………………………………. 63

4-3-1-مقاومت دربرابر حملات تغییر ………………………………………………………………………………………… 63

4-3-2- ظرفیت نهان نگاری ……………………………………………………………………………………………………….64

4-3-3- اندازه فایل نهان نگاری شده ………………………………………………………………………………… 65

4-3-4- شفافیت (تناسب با فایل میزبان) ……………………………………………………………………………. 65

4-3-5- آسیب پذیری دربرابر حملات ………………………………………………………………………………. 66

4-3-6- محدودیت ها و نواقص ………………………………………………………………………………………………….67

4-4- بررسی الگوریتم روش ……………………………………………………………………………………………………….67

4-4-1- الگوریتم نهان نگاری ……………………………………………………………………………………………………..67

4-4-2- محاسبه پیچیدی زمانی الگوریتم نهان نگاری ………………………………………………68

4-4-3- الگوریتم بازیابی پیام ………………………………………………………………………………………………………68

4-4-4- محاسبه پیچیدی زمانی الگوریتم بازیابی پیام ……………………………………………….68

4-5- نمودار مورد کاربرد عملیات نهان نگاری پیام رمز……………………………………………… 69

4-6-نمودار مورد کاربرد عملیات بازیابی پیام رمز…………………………………………. 70

فصـل پنجم: نتیجه گیری و پیشنهادات

5-1- خلاصه پژوهش ………………………………………………………………………………………… 72

5-2- نتیجه گیری ………………………………………………………………………………………….. 73

فهرست منابع انگلیسی ………………………………………………………………………………………….. 74

پیوست

پیوست 1 : کلاس الگوریتم پیشنهادی در این تحقیق …………………………………………….. 81

چکیده انگلیسی ………………………………………………………………………………………………… 87

چکیده:

از ابتدای دیجیتالی شدن اسناد حقیقی و حقوقی، همواره مالکان اسناد آنها به دنبال روشی مناسب جهت حفاظت از حق اثر(کپیرایت)آن بوده اند.

گسترش و رشد روز افزون اینترنت باعث ایجاد تغییرات گسترده در نحوه زندگی و فعالیت شغلی افراد، سازمانها و موسسات شده است. امنیت اطلاعات یکی از مسائل مشترک شخصیت های حقوقی و حقیقی است. اطمینان از عدم دستیابی افراد غیر مجاز به اطلاعات حساس از مهمترین چالش های امنیتی در رابطه با توزیع اطلاعاتدر اینترنت است. اطلاعات حساس که ما تمایلی به مشاهده و دستکاری آنان توسط دیگران نداریم، موارد متعددی را شامل می شود که حجم بسیار زیادی، بالغ بر90 درصد این اطلاعات را متون دیجیتال تشکیل میدهند.

با توجه به حجم بسیار زیاد اطلاعات متنی در دنیای امروز، و اشتراک گزاری آن در اینترنت، نیاز به انجام کارهای پژوهشی در این زمینه بر کسی پوشیده نیست و رمزنگاریونهان نگاری اسناد دیجیتال به عنوان یک تکنیک محرمانه در متون دیجیتال، می تواند موارد استفاده بسیار زیادی داشته باشد. به عنوان مثال یکی از مواردی که امروزه به صورت جدی مورد توجه قرار گرفته است جلوگیری از جعل اسناد الکترونیکی و اعمال حق اثر (کپیرایت) به صورت نهفته در داخل خود آن اثر می باشد.

در این پایانامه، روش جدیدی برای حفاظت از کپی غیر مجاز متون دیجیتال با بهره گرفتن از نهان نگاری پیام در اسناد دیجیتال مانند(MS Word،MS Excel) ، ارائه شده است که این کار، با بهره گرفتن از درج کاراکترهای مخفی یونیکد نسبت به موقعیت کاراکترهای خاص نگارشی(مانند، کاما، نقطه، ویرگول ،دابل کوتیشن و.. ) در متن اصلی، با تغییر نامحسوس انجام شده است.

درروش ارائه شده، پیام کاراکتر به کاراکتر پردازش شده و هر کاراکتر به صورت مجزا به یک عدد 8 بیتی باینری تبدیل می شود. قبل از نهان نگاری، ابتدا طول پیام که یک مجموعه باینری 8 بیتی است، درمتن اصلی به صورت زوج بیت “00، 01 ،10،11” نسبت به موقعیت کاراکترهای خاص نشانه گذاری می شود برای انجام این کار، به ازای هر کاراکتر، چهار کاراکتر مخفی (بدون طول یونیکد) در نظر گرفته شده است، به عبارت دیگر قبل و بعداز هر کاراکتر خاص در متن چهار زوج بیت با چهار علامت نشانه گذاری شده و این روند تا آنجا که کل بیت های پیام در متن نهان نگاری شود تکرار خواهند شد.

فصل اول: کلیات تحقیق

1-1- مقدمه

ﭘﻨﻬﺎن نگاری و رمز نگاری دادهﻫﺎ ﺗﮑﻨﯿﮑﯽ اﺳﺖ ﮐﻪ از دﯾﺮﺑﺎز ﻣﻮرد ﻋﻼﻗﻪ ﺑﺴﯿﺎری از اﻓﺮاد ﺑﻮده اﺳﺖ. ﺑﺎ ﭘﯿﺸﺮﻓﺖ ﻋﻠﻮم و داﻧﺶ ﺑﺸﺮی روﺷﻬﺎی ﭘﻨﻬﺎن ﺳﺎزی ﻧﯿﺰ ﺑﻪ ﻧﻮﺑﻪ ﺧﻮد ﺑﺎ ﭘﯿﺸﺮﻓﺖ ﻣﻮاﺟﻪ ﺷﺪه و رﺳﺎﻧﻪﻫﺎی ﻣﻮرد اﺳﺘﻔﺎده و ﺗﮑﻨﯿﮏﻫﺎی ﭘﻨﻬﺎنﺳﺎزی دادهﻫﺎ ﻧﯿﺰ ﺗﻮﺳﻌﻪ ﯾﺎﻓﺘﻪاﻧﺪ. دو ﻫﺪف اﺻﻠﯽ را ﻣﯽﺗﻮان ﺑﺮای ﭘﻨﻬﺎنﺳﺎزی دادهﻫﺎ در ﻧﻈﺮ ﮔﺮﻓﺖ. ﻫﺪف اول ﮐﻪ از دﯾﺮﺑﺎز ﻣﻮرد ﺗﻮﺟﻪ ﺑﻮده و دﻟﯿﻞ اﺻﻠﯽ ﭘﯿﺪاﯾﺶ روﺷﻬﺎی ﻣﺨﺘﻠﻒ پنهان نگاریﻣﯽﺑﺎﺷﺪ ﭘﻨﻬﺎنﺳﺎزی دادهﻫﺎیﺳﺮی و ﻣﺤﺮﻣﺎﻧﻪ درون رﺳﺎﻧﻪﻫﺎ وﺣﺎﻣﻞﻫﺎی ﻋﻤﻮﻣﯽ اﺳﺖ (نیکولاس و همکاران، 1998).

ﻫﺪف دوم ﮐﻪ اﻣﺮوزه راﯾﺞ ﺷﺪه و ﺑﻪ دﻟﯿﻞ ﮐﺜﺮت اﺳﺘﻔﺎده ﻧﺴﺒﺖ ﺑﻪ ﻫﺪف اول ﺑﯿﺸﺘﺮ ﺑﺮروی آن ﮐﺎر ﺷﺪه اﺳﺖ، درج اﻣﻀﺎی ﺻﺎﺣﺐ رﺳﺎﻧﻪ درون آنﻣﯽﺑﺎﺷﺪ. در ﺣﺎﻟﺖ اول ﻫﺪف اﺻﻠﯽ ﮔﻨﺠﺎﻧﺪن ﺣﺠﻢ ﻗﺎﺑﻞ ﻗﺒﻮﻟﯽ از دادهﻫﺎ، در رﺳﺎﻧﻪ ﺑﻪ ﻧﺤﻮی اﺳﺖ ﮐﻪ اﻣﮑﺎن ﺑﺎزﯾﺎﺑﯽ آﻧﻬﺎ ﺗﻮﺳﻂ اﻓﺮاد دﯾﮕﺮ ﭘﯿﭽﯿﺪه و ﺣﺘﯽاﻻﻣﮑﺎن ﻏﯿﺮﻣﻤﮑﻦ ﺑﺎﺷﺪ. واﺑﺴﺘﻪ ﺑﻪ ﻧﻮع ﭘﯿﺎم و ﻧﺤﻮه اﻧﺘﻘﺎل آن ﻣﻌﻤﻮﻻً ﺣﺘﯽ اﻣﮑﺎن ﮐﺸﻒ وﺟﻮد دادهﻫﺎی ﻧﻬﻔﺘﻪ در رﺳﺎﻧﻪ ﻧﯿﺰ ﻏﯿﺮ ﻗﺎﺑﻞ ﻗﺒﻮل ﺑﻮده و در ﻫﺮ ﺻﻮرت اﻣﮑﺎن ﺑﺎزﯾﺎﺑﯽ داده ﺑﺮای اﻓﺮادﻏﯿﺮ، ﭘﺬﯾﺮﻓﺘﻨﯽ ﻧﯿﺴﺖ. در اﯾﻦﺣﺎﻟﺖ ﺣﺘﯽ در ﻣﻮاردی ﺧﺮاﺑﯽ دادهﻫﺎ ﺑﺮ اﺛﺮ دﺧﻞ و ﺗﺼﺮف در رﺳﺎﻧﻪ ﭼﻨﺪان اﻫﻤﯿﺘﯽ ﻧﺪاﺷﺘﻪ و ﺣﺘﯽ ﻣﻄﻠﻮب اﺳﺖ. اﯾﻦ در ﺣﺎﻟﯽ اﺳﺖ ﮐﻪ در ﻫﺪف دوم ﺣﺠﻢ ﺑﺴﯿﺎر اﻧﺪﮐﯽ از داده ﻣﯽﺑﺎﯾﺴﺖ ﺑﻪ ﻧﺤﻮی در رﺳﺎﻧﻪ ﭘﻨﻬﺎن ﺷﻮﻧﺪ ﮐﻪ در ﻣﻘﺎبل اﻧﻮاع ﺗﻐﯿﯿﺮات رﺳﺎﻧﻪ از ﺧﻮد ﻣﻘﺎوﻣﺖ ﻧﺸﺎن داده و ﺣﺪاﻗﻞ ﺧﺮاﺑﯽ در آﻧﻬﺎ ﭘﯿﺶ آﯾﺪ.

درﺣﻮزهﭘﻨﻬﺎنﺳﺎزی و رمزنگاری دادهﻫﺎ ﺳﻪ ﻣﻔﻬﻮم ﻧﺰدﯾﮏ ﺑﻪ ﯾﮑﺪﯾﮕﺮ وﺟﻮد دارﻧﺪ ﮐﻪ ﻻزم اﺳﺖ ﭘﯿﺶ از ورود ﺑﻪ ﻫﺮ ﺑﺤﺜﯽ در ﺧﺼﻮص ﻫﺮﮐﺪام از آنﻫﺎ ﺧﺼﻮﺻﯿﺎﺗﺸﺎن ﻣﻌﺮﻓﯽ ﮔﺮدد ﺗﺎ اﻣﮑﺎن ﺗﻔﮑﯿﮏ ﺣﻮزه در ﻫﻨﮕﺎم ﺷﺮح ﻣﻮﺿﻮع وﺟﻮد داﺷﺘﻪﺑﺎﺷﺪ. اﯾﻦ ﺳﻪ ﻣﻔﻬﻮم ﻋﺒﺎرﺗﻨﺪاز:

پنهان نگاری دادهﻫﺎ
نهان نگاری دادهﻫﺎ
رﻣﺰﻧﮕﺎری دادهﻫﺎ

از ﺳﻪ ﻣﻔﻬﻮمﻓﻮق ﻣﻔﺎﻫﯿﻢپنهان نگاری و نهان نگاری ﻣﻔﺎﻫﯿﻤﯽﺑﺴﯿﺎر ﻧﺰدﯾﮏ ﺑﻪ ﯾﮑﺪﯾﮕﺮ ﻫﺴﺘﻨﺪ و ﺗﻔﮑﯿﮏ ﺣﻮزهﻫﺎی آنﻫﺎ از ﯾﮑﺪﯾﮕﺮ ﭘﯿﭽﯿﺪه ﻣﯽﺑﺎﺷﺪ. ﻣﻔﻬﻮم رﻣﺰﻧﮕﺎری ﻧﯿﺰ ﺑﺎ وﺟﻮد اینﮐﻪ ﺑﻪ رمزگذاری دادهﻫﺎ ﻣﯽﭘﺮدازد ﻣﯽﺗﻮان آنرا ﺑﺎ اﺳﺘﺪﻻلﺳﺎده ای از دو ﻣﻔﻬﻮم دﯾﮕﺮﺗﻤﯿﺰ داد. ﺑﺪان ﻣﻌﻨﯽ ﮐﻪ در رﻣﺰﻧﮕﺎری، رﺳﺎﻧﻪ اﻧﺘﻘﺎل دارای ﻣﻔﻬﻮم و داده ﻣﺴﺘﻘﻞ ﻧﺒﻮده و ﻧﻬﺎن ﺑﻮدن دادهﻫﺎ ﻋﯿﺎنﻣﯽﺑﺎﺷﺪ (هاردیک کومار و پوچری، 2012).

در ادامه ﻓﺮآﯾﻨﺪ ﺗﻔﮑﯿﮏ اﯾﻦ ﺳﻪﻣﻔﻬﻮم از ﯾﮑﺪﯾﮕﺮ و ﺣﻮزه ﻓﻌﺎﻟﯿﺖ ﻫﺮﮐﺪام مورد بررسی قرار خواهد گرفت؛ ﻫﺮدو روش پنهان نگاری و نهان نگاری از رﺳﺎﻧﻪای ﻋﻤﻮﻣﯽ و دارای ﻣﻔﻬﻮم ﻣﺴﺘﻘﻞ ﺑﺮای اﻧﺘﻘﺎل داده اﺳﺘﻔﺎده ﻣﯽﮐﻨﻨﺪ ﺑﺎ وﺟﻮد اﯾﻦ در ﺗﻤﺎﻣﯽ روﺷﻬﺎی نهان نگاری داده ﻣﻨﺘﻘﻞ ﺷﺪه ﻫﻤﺮاه رﺳﺎﻧﻪ ﻋﯿﺎن و ﻗﺎﺑﻞدﺳﺘﯿﺎﺑﯽ ﻣﯽﺑﺎﺷﺪ؛ در ﺣﺎﻟﯽ ﮐﻪ در روﺷﻬﺎی پنهان نگاریﻧﻤﯽﺗﻮان ﺑﻪ ﺳﺎدﮔﯽ از وﺟﻮد داده ﻧﻬﺎن، ﻣﻄﻠﻊ ﺷﺪه و ﯾﺎ آنرا اﺳﺘﺨﺮاج ﻧﻤﻮد.

در ادامه ﻧﻤﻮﻧﻪای ازداده های ذﺧﯿﺮهﺷﺪه در ﻫﺮﮐﺪام از ﺳﻪ روشﻣﺬﮐﻮرنمایش داده خواهد شد. ﺑﻪ طور ﮐﻠﯽ ﻣﯽﺗﻮان ﮔﻔﺖ ﮐﻪ از دو ﻫﺪف ﻗﺒﻠﯽ ذﮐﺮ ﺷﺪه ﻫﺪف اول ﺗﻮﺳﻂ روﺷﻬﺎی رﻣﺰﻧﮕﺎری وﻧ ﻬﺎنﺳﺎزیﻣﺤﻘﻖ ﻣﯽﮔﺮدد و از نهان نگاری ﻣﻌﻤﻮلا ﺑﺮای ﻧﯿﻞ ﺑﻪ ﻫﺪف دوم ﺑﻬﺮهﺑﺮداری ﻣﯽﺷﻮد (هاردی کوماروهمکارش، 2012).

2-1- تعریف پنهان نگاری

پنهان نگاری یا استگانوگرافی هنر و علم برقراری ارتباط پنهانی است و هدف آن پنهان کردن ارتباط به وسیله قراردادن پیام در یک رسانه پوششی است به گونه‌ای که کمترین تغییر قابل کشف را در آن ایجاد نماید و نتوان موجودیت پیام پنهان در رسانه راحتی به صورت احتمالی آشکار ساخت.

پنهان نگاری خود شاخهای از دانشی به نام ارتباطات پوشیده است. دانش ارتباطات پوشیده خود شامل چندین شاخه از جمله رمز نگاری، نهان نگاری و … میباشد(پروروز و هانیمن،2003).

متن کامل را می توانید دانلود نمائید

موضوعات: بدون موضوع لینک ثابت

[ 12:18:00 ب.ظ ]

ارسال نظر »

پایان نامه ارشد مهندسی نرم افزار: پیش بینی بهره کشی و خوشه بندی آسیب پذیری ها بوسیله متن کاوی

اگر سیستمی آسیب پذیر است، چه زمانی بسته اصلاح شده آن از سوی سازندگان ارائه خواهد شد؟ (دقت پاسخها بین 91-68%)

در زمینه خوشه بندی آسیب پذیریها، تاکنون تحقیقات زیادی انجام شده است. پایگاه داده OSVDB دارای دسته بندیهای مختلفی برای آسیب پذیریها میباشد، اما هیچ یک از این دستهها بر اساس توصیف آسیب پذیریها نیست. در این تحقیق آسیب پذیریها با بهره گرفتن از توصیفهایشان خوشه بندی شده اند، که دستههای حاصل عبارتند از: سرریز بافر، رد سرویس، دستکاری داده، کنترل از راه دور، پیکربندی نامناسب، شکاف در رمز عبور، دسترسی غیر مجاز به اطلاعات، و دسترسی غیر مجاز به سرویس. برای انتساب آسیب پذیریها به دستههای مناسب به صورت دستی به تجربه نیروی انسانی نیاز است و انجام این کار بسیار ملال آور میباشد. دسته بندی ارائه شده در این پژوهش، امکان ساخت نرم افزاری که بتواند آسیب پذیریها را به طور خودکار به دستههای مناسب نسبت دهد، را فراهم می کند.

در این پژوهش از دو پایگاه داده معروف آسیب پذیریها (OSVDB و CVE)، و اطلاعات تاریخ آسیب پذیریها که استفان فری در اختیارمان قرار داد، استفاده شده است. برای پیش بینی بهره کشی از کلاس بندی کننده های ماشین بردار پشتیبانی و جنگل تصادفی، و برای انجام خوشه بندی از روش نگاشت خود سازمانده نوخاسته استفاده شده است.

فصل اول: مقدمه

1-1- آسیب پذیری

در مباحث امنیت کامپیوتر، یک آسیب پذیری، ضعفی است که برای مهاجم امکان سوء استفاده از اطلاعات یک سیستم را فراهم می کند. سالانه هزاران آسیب پذیری کشف و گزارش میشوند و میلیونها دلار در سرتاسر دنیا صرف مقابله با آسیب پذیریها میگردد. برای بهره کشی از آسیب پذیری یک سیستم عموماً به سه عامل نیاز است: حساسیت یا نقصی در سیستم، دسترسی مهاجم به نقص و توانایی مهاجم برای بهره کشی از نقص (1).

1-1-1- تعریف آسیب پذیری

آسیب پذیری از جمله مفاهیمی است که منابع مختلف تعاریف متفاوتی را برایش ارائه دادهاند. از جمله این تعاریف میتوان به موارد زیر اشاره کرد:

ISO 27005: ضعف یک دارایی یا گروهی از دارایی ها که می تواند توسط فرد یا گروهی از افراد مورد بهره کشی قرار گیرد (2). در این تعریف دارایی به معنای هر چیزی که برای سازمان ارزشی داشته باشد، است، برای مثال منابع اطلاعاتی مورد حمایت سازمان.

IETF RFC 2828: یک عیب یا ضعف در طراحی، پیاده سازی، عملکرد یا مدیریت سیستم، که می تواند باعث بهره کشی، در جهت نقض سیاست امنیتی سیستم شود (3).

کمیته ملی سیستمهای امنیتی ایالات متحده آمریکا[1]، در دستورالعمل CNSSشماره 4009، در تاریخ 26 آوریل 2010، واژه نامه تضمین اطلاعات ملی: آسیب پذیری ضعف در یک IS، روشهای امنیتی سیستم، کنترلهای داخلی یا پیاده سازی است، که می تواند منجر به بهره کشی شود (4).

ENISA: وجود یک ضعف طراحی یا خطای پیاده سازی که بتواند منجر به رویداد غیر منتظره نامطلوبی شود، که این رویداد امنیت سیستم کامپیوتر، شبکه، برنامه یا پروتکل را به خطر اندازد (5).

گروه باز[2]: حالتی که قدرت مهاجم بیش از قدرت مقاومت در برابر آن باشد (6).

تحلیل عاملی از خطر اطلاعات[3](FAIR): احتمال اینکه یک دارایی قادر به مقاومت در برابر عوامل خطر نباشد (7).

امنیت داده و کامپیوتر، فرهنگ لغات مفاهیم و لغات استاندارد، نویسندگان دنیس لانگلی[4] و مایکل شین[5]، استاکتون پرس[6]، ISBN 0-935859-17-9:

در امنیت کامپیوتر، ضعف کارکرد امنیتی سیستمهای خودکار شده، کنترلهای ناظران، کنترلهای اینترنت و غیره، که بتوانند بوسیله یک مهاجم با دسترسی غیر مجاز به اطلاعات، پردازش اطلاعات را مختل کنند.
در امنیت کامپیوتر، یک ضعف در لایه فیزیکی، سازمان، کارکرد، کارکنان، مدیریت، سرپرستی، سخت افزار یا نرم افزار که امکان بهره کشی از آنها با هدف آسیب رساندن به سیستم یا فعالیت وجود داشته باشد.
در امنیت کامپیوتر، هر ضعف یا نقص موجود در یک سیستم، حمله، رویداد مضر یا فرصت دسترسی برای یک عامل تهدید کننده، که امکان تهدید را برای عامل فراهم کند، را آسیب پذیری گویند.

2-1-1- کلاس بندی آسیب پذیری ها

آسیب پذیریها، براساس نوع دارایی به دستههای زیر تقسیم میشوند (2):

سخت افزار، برای مثال: حساسیت به رطوبت، حساسیت به گرد و غبار، استعداد ابتلا به ذخیره سازی محافظت نشده.
نرم افزار، برای مثال: تست ناکافی، فقدان پیگیری.
شبکه، برای مثال: خطوط ارتباطی محافظت نشده، معماری شبکه ناامن.
کارکنان، برای مثال: روند جذب ناکافی، آگاهیهای امنیتی ناکافی.
مکان، برای مثال: منطقه مستعد سیل،منبع برق غیر قابل اعتماد.
سازمانی، برای مثال: عدم پیگیری منظم، عدم تداوم برنامهها.

3-1-1- علتهای ایجاد آسیب پذیریها

برخی از منابع و علتهای ایجاد آسیب پذیریها عبارتند از:

پیچیدگی سیستم: احتمال وجود نقص و نقاط دسترسی ناخواسته در سیستمهای بزرگ پیچیده، بیشتر است (8).
متعارف بودن سیستم: استفاده از کدها، نرم افزارها، سیستم عاملها یا سخت افزارهای معمول و معروف، احتمال اینکه یک مهاجم بتواند به دانش و ابزار، جهت بهره کشی از نقص موجود دسترسی پیدا کند، را افزایش میدهد (9).
اتصال: اتصالات فیزیکی، امتیازات[1]، پورتها، پروتکلها و سرویسهای بیشتر و افزایش مدت زمان هر یک از آنها، دسترسی پذیری به آسیب پذیریها را افزایش میدهد (7).
نقص در مدیریت پسوردها: کاربران کامپیوتر از پسوردهای ضعیفی که با تلاش اندکی کشف میشوند، استفاده می کنند یا اینکه آنها را در برخی برنامهها ذخیره می کنند، و این پسوردها بین بسیاری از برنامهها و صفحات وب مشترک است (8).
نقصهای طراحی در سیستم عاملهای اصلی: طراحان سیستم عاملها، عموماً سیاستهایی که کمتر کاربر/مدیر سیستم را درگیر کنند را برمیگزینند. برای مثال سیستم عاملها، سیاستهایی مثل پیش فرضهای اعطای مجوز به هر برنامه و دسترسی کامل کاربران به سیستم را دارند (8).این نقصهای سیستم عاملها، به ویروسها و بدافزارها، اجازه اجرای دستوراتی از طرف مدیر را میدهد (1).
مرور وبسایتهای اینترنت: برخی وب سایتهای اینترنتی دارای جاسوسها یا تبلیغات خطرناکی هستند، که میتوانند به صورت خودکار روی سیستمهای کامپیوتری نصب شوند. بعد از بازدید از این وب سایتها سیستمها آلوده میشوند، اطلاعات شخصی جمع آوری شده و برای شخص ثالث فرستاده می شود (10).
اشکلات نرم افزاری: اشکلات قابل بهره کشی در بسیاری برنامه های نرم افزاری وجود دارد. اشکلات نرم افزاری ممکن است به مهاجمان اجازه سوء استفاده از برنامه را بدهند (8).
ورودی های کاربر کنترل نشده: برنامهها فرض می کنندکه همهی ورودی های کاربر امن است. برنامه هایی که ورودی های کاربر را بررسی نمی کنند، در واقع امکان اجرای مستقیم دستورات ناخواسته و دستکاری در پایگاه داده ها را فراهم می کنند (8).

4-1-1- شناسایی و حذف آسیب پذیریها

تلاش های زیادی در جهت ساخت نرم افزارهایی با قابلیت کشف خودکار آسیب پذیریهای سیستمهای کامپیوتری انجام شده است. اگرچه نرم افزارهای موجود میتوانند در برخی موارد دید کلی خوبی را نسبت به آسیب پذیریهای سیستم فراهم کنند، اما نمیتوانند جایگزین بررسی انسانیروی آسیب

پذیریها شوند. تکیه بر گزارشات اسکنرها، دید محدود همراه با تشخیصهای اشتباه زیاد، به همراه خواهد داشت. آسیب پذیریها در همهی نرم افزارهای اساسی مثل سیستم عاملها وجود دارند. گاهی اوقات تنها راه حل اساسی مقابله با آنها نصب بسته نرم افزاری اصلاح شده آن محصول است و در فاصله زمانی کشف تا ارائه بسته نرم افزاری با روشهایی مثل استفاده از دیوار آتش و یا نظارت مستقیم بر کنترلهای دسترسی توسط ناظران سیستمها، میتوان جلوی سوء استفاده از سیستم را گرفت. لازم به ذکر است که روشهای نظارت مستقیم بر سیستمها، هم از نظر مالی و هم از نظر نیروی انسانی بسیار هزینه بر هستند.

2-1- مفاهیم اولیه مورد نیاز

1-2-1- متن کاوی

مشکلی که دنیای امروز با آن رو به رو است، كمبود یا نبود اطلاعات نیست بلکه کمبود دانشی است که از این اطلاعات میتوان حاصل کرد. میلیونها صفحه وب، میلیونها کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت، تنها بخشی از این منابع اطلاعاتی هستند. اما نمیتوان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش حاصلی است که از نتیجه گیری و فکر و تحلیل بر روی اطلاعات به دست میآید. هدف داده کاوی مشخص کردن روابط میان داده های موجود در پایگاه داده ها و استخراج دانش از میان آنها میباشد. زمانی که داده های موجود ساخت یافته باشند استفاده از روشهای داده کاوی و کسب دانش از آنها ساده است. اما امروزه بخش زیادی از اطلاعات به صورت متن نگهداری می شود و متنها داده هایی غیر ساخت یافته هستند. یک فرد برای دریافت دانش از اطلاعات یک متن، بایستی ابتدا آنرا درک کند، تا بفهمد چه معانی و مفاهیمی در آن موجود است و چه ارتباطی میان مفاهیم وجود دارد. با این حال عصر تکنولوژی به دنبال خودکارسازی است، حتی اگر این کار “درک معنی متن” باشد (11).

متن كاوی تمام فعالیتهایی كه به نوعی به دنبال كسب دانش از متن هستند را شامل می‌گردد. تحلیل داده های متنی توسط روشهای یادگیری ماشین، بازیابی اطلاعات هوشمند، پردازش زبان طبیعی، همگی در دسته فعالیتهای متن کاوی قرار می‌گیرند. تصویر 1-1 مراحل متعارف متن کاوی را نشان میدهد. اولین گام در متن کاوی استفاده از روشهایی برای ساختارمند نمودن متنها است. متن از مجموعه ای از کلمات و عبارات زبان طبیعی تشکیل شده است. عموماً روشهای متن کاوی ابتدا کلمات و عبارات، را از متن استخراج می کنند و سپس آنها را مورد پردازش قرار میدهند، برای مثال برخی کلمات مثل حروف اضافه و ضمایر حذف، و کلمات باقی مانده ریشهیابی میشوند. سپس مشخصات استخراج شده از متنها به روشهای مختلفی مقداردهی میشوند، از میان این روشها میتوان به مقداردهی دودویی (بیانگر ظاهر شدن/ نشدن کلمه در متن است)، فراوانی کلمه در متن، وزن TF-IDFاشاره کرد (12).در این تحقیق از روش وزندهی TF-IDFاستفاده شده است، که در قسمت بعد درباره این روش توضیح داده خواهد شد. با بهره گرفتن از مقادیر به دست آمده بردارهای ویژگی برای داده ها ساخته و از بین مجموعهی داده ها، داده های آموزش و تست کلاس بندی کننده انتخاب میشوند. پس از آن یک روش کلاس بندی انتخاب می شود. کلاس بندی کننده با بهره گرفتن از داده های آموزش، آموزش داده و با بهره گرفتن از داده های تست ارزیابی می شود.

[1]Privileges

[1] The committee on National Security Systems of United States of America

[2] Open Group

[3] Factor Analysis of Information Risk

[4] Dennis Longley

[5] Michael Shain

[6] Stockton Press

متن کامل را می توانید دانلود نمائید

موضوعات: بدون موضوع لینک ثابت

[ 12:18:00 ب.ظ ]

ارسال نظر »