پایان نامه ارشد فناوری اطلاعات: روش های استخراج اطلاعات با بهره گرفتن از داده های دسترسی به وب |
2- اهداف و کاربرد ———-8
1-2- خصوصی سازی محتوای وب————–8
2-2- پیش بازیابی ———-8
3-2- بهبود طراحی سایت های وب————-8
2-4- تشخیص اجتماعات وب—-9
2-5-پیمایش وب————-9
2-6- کاربردهای وب کاوی——9
2-6-1- تجارت الکترونیکی—–10
2-6-2- موتورهای جستجو—-10
2-6-3- حراجی در وب——-10
3- مشکلات و چالش های وب کاوی———–11
4- وب کاوی و زمینه های تحقیقاتی مرتبط—–12
4-1- وب کاوی و داده کاوی—12
4-2- وب کاوی و بازیابی اطلاعات—————12
4-3- وب کاوی و استخراج اطلاعات————–13
4-4- وب کاوی و یادگیری ماشین—————13
5- انواع وب کاوی————14
5-1- کاوش محتوای وب——15
5-1-1- انواع کاوش محتوا در وب ————–16
5-1-1-1- طبقه بندی——–16
5-1-1-3- خوشه بندی——-16
5-1-1-4- سایر انواع کاوش محتوا در وب———17
5-1-2- رویکردهای کاوش محتوا در وب –17
5-1-3- الگوریتم های کاوش محتوا در وب ——–18
5-1-3- 1- درخت تصمیم———18
5-1-3- 2- شبکه عصبی———–18
5-1-3- 3- سایر الگوریتم های کاوش-18
5-2- کاوش ساختار وب————19
5-2-1- مدل های بازنمایی ساختار وب—————-19
5-2-1-1- مدل های مبتنی بر گراف–19
5-2-1-2- مدل های مارکو———-21
5-2-2- الگوریتم های کاوش ساختار وب—————21
5-2-2-1- HITS-بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد
5-2-2-2- Page Rank———–
5-2-2-3- الگوریتم جریان بیشینه—-23
5-2-2-4- Average Clicks——
6- کاوش استفاده از وب————-24
6-1- انواع داده های استفاده از وب—-25
6-1-1- داده های سرورهای وب——25
6-1-2- داده های سرورهای پراکسی—25
6-1-3- داده های کلاینت———–25
6-2- پیش پردازش داده های استفاده از وب————-26
6-2-1- پاکسازی داده————–26
6-2-2- تشخیص و بازسازی نشست—-26
6-2-3- بازیابی ساختار و محتوا——-27
6-2-4- قالب بندی داده————-27
6-3- روش های کاوش استفاده از وب–28
6-3-1- قوانین انجمنی————–28
6-3-2- الگوهای ترتیبی————-28
6-3-3- خوشه بندی—————-29
6-4- کاربردهای کاوش استفاده از وب–29
6-4-1- خصوصی سازی محتوای وب—30
6-4-2- پیش بازیابی —————30
6-4-3- بهبود طراحی سایت های وب–30
6-5-خروجی ها و تكنیكهای wum—–
6-6 -تحلیل wum—————-
7- نتیجه گیری-بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد—32
8- مراجع-بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد——–33
چکیده:
با افزایش محبوبیت شبكه جهانی وب، مقدار حجیمی از دادهها توسط وب سرورها در قالب فایلهای ثبت وقایع وب جمع آوری میشوند. این فایلها كه در آنها تمامی فعالیتهای و رخداده در سیستم وبسرور ثبت میشود، میتوانند به عنوان منابع بسیار غنی از اطلاعات برای درك و تشخیص رفتار كاربران وب، استفاده شوند. با توجه به گسترش روز افزون حجم اطلاعات در وب و ارتباط وب کاوی با تجارت الکترونیکی، وب کاوی به یک زمینه تحقیقاتی وسیع مبدل گشته است .
كاوش استفاده از وب یا به بیان بهتر کاوش داده های استفاده از وب كه آن را كاوش فایل ثبت وقایع در وب نیز مینامند، در واقع استفاده از الگوریتمهای داده كاوی بر روی فایلهای ثبت وقایع وب به منظور پیدا كردن مسیر حركت و نظم موجود در الگوهای جستجوی كاربران وب است.
کاوش داده های استفاده از وب، روش پیداکردن کاربرانی است که در اینترنت به دنبال اهداف خاصی می گردند. بعضی از کاربران ممکن است به دنبال داده های متنی باشند در حالی که بعضی دیگر ممکن است بخواهند داده های سمعی وبصری را ازاینترنت دریافت نمایند.کاوش داده های استفاده از وب به ما کمک می کند تا الگو هایی از گروه های مشخصی از افراد را که به مناطق مشخصی تعلق دارند پیدا کنیم.
2- مفهوم داده کاوی و وب کاوی
داده کاوی یک نوع تحلیل برروی پایگاه داده های بزرگ است که به کشف دانش جدید از آن پایگاه داده منتهی می شود. وقتی پایگاه داده سیستم بزرگ می شود و اطلاعات متنوعی در آن وجود دارد با بهره گرفتن از داده کاوی می توانیم الگوهایی را برروی این پایگاه داده کشف کنیم که با روابط درون پایگاه داده نمی شد به آن پی برد.بعنوان مثالی ساده ، شما پایگاه داده سایت آمازون (خرید و فروش اینترنتی) را در نظر بگیرید، برروی پایگاه داده این سایت اطلاعات زیادی از خرید ها و جستجو های افراد مختلف وجود دارد، با بهره گرفتن از تکنیک های داده کاوی می توانیم یک الگو بدست بیاوریم که مشخص می کند هر جستجو در سایت در نهایت منجر به چه خریدی شده است و سپس آن را به سایر کاربران بعنوان راهنمایی ارائه کنیم.
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها (معمولا حجم عظیمی از داده ها – در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است و به صورت دقیق تر میتوان گفت :
“کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با بهره گرفتن از پرداز شهای معمول قابل دستیابی نیستند” [5].
داده کاوی، علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد. به عبارت دیگرداده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد [5].
1-4- وب کاوی
با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. در واقع وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد .وب کاوی در واقع کاربرد تکنیک های داده کاوی به منظور کشف الگوهایی از وب می باشد.
استفاده از وب داده های[1] وب یکی از گام های کلیدی در کشف دانش در پایگاه داده، ایجاد یک مجموعه داده مناسب جهت انجام داده کاوی می باشد.در وب کاوی این داده می تواند از سمت سرور، مشتری، پروکسی سرور یا از یک پایگاه داده سازمان جمع آوری شود. هر کدام از این داده ها نه تنها از نظر منابع داده متفاوت می باشند بلکه از نظر انواع داده های موجود و محدوده مکانی که آن داده از آنجا جمع آوری می شود و متد پیاده سازی آن انواع داده ای که در وب کاوی استفاده می شود شامل: “محتوا “: داده واقعی در صفحات وب، داده ای که صفحه وب برای نمایش آن به کاربران طراحی شده است.که معمولاً از متن و گرافیک تشکیل شده ولی به آن محدود نمی شود.”ساختار” : داده ای که سازمان دهی محتوا را مشخص می سازد. اطلاعات ساختار درون صفحات شامل ترتیب انواع تگ های XML یا HTML در یک صفحه داده شده می باشد و می تواند به صورت یک ساختار درختی نمایش داده شود که تگ ریشه درخت می باشد. اصلی ترین نوع از اطلاعات ساختاری بین صفحات، هایپرلینک است که یک صفحه را به دیگری مرتبط می کند.”استفاده”: داده ای که الگوی استفاده از صفحات وب را مشخص می سازد، مثل آدرس های IP، رجوع به صفحات و تاریخ و زمان دسترسی. “پروفایل کاربر” : داده ای که اطلاعات آماری درباره کاربران وب سایت فراهم می سازد که شامل داده ثبت نام و اطلاعات پروفایل مشتری می باشد.منابع داده داده های استفاده که از منابع مختلفی جمع آوری می شود، الگوهای راهبری از بخش های مختلفی از کل ترافیک وب را نمایش می دهد. جمع آوری در سطح سرورلاگ های وب سرور یک منبع مهم برای اجرای وب کاوی استفاده از وب محسوب می شود زیرا به طور صریح رفتار گری تمام مشاهده کنندگان سایت را ثبت می کند.
[1] Web data
ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است
متن کامل را می توانید دانلود نمائید
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-03] [ 01:12:00 ب.ظ ]
|