اصول و روشهای یادگیری علم داده
الهام نظری
شابک: 4-72-8201-600-978
• ریاضیات پایه • آمار احتمال مقدماتی و پیشرفته • برنامهنویسی پایتون • یادگیری ماشین • مدلسازی با دادهها
1398
410
315,000 تومان
350,000 تومان
-
+
نوبت چاپ | one |
---|---|
ویرایش | one |
وزن | 700 گرم |
جلد | 1 از 1 |
موجود است؟ | بلی |
---|---|
چاپ شده است؟ | بلی |
در حال پیش فروش است؟ | خیر |
کتاب الکترونیکی است؟ | خیر |
علم داده، شامل توسعه روش¬های ذخیره و تجزیه و تحلیل داده ها برای استخراج اطلاعات مفید است. بر خلاف داده کاوی که تنها به آنالیز حجم زیادی از داده می پردازد تا الگوها و سایر اطلاعات مفید را بدست آورد، علم داده شامل تمام حوزه¬های جمع آوری داده و پردازش اطلاعات میباشد. کتاب حاضر به مقدمات ضروری این علم می پردازد. با قدم گذاشتن در این حوزه وسیع، شما به شخصی تبدیل می شوید که متعلق به هزاره سوم است. نسلی که تکنولوژی را به معنای واقعی لمس و از آن به بهترین نحو استفاده می کند و موقعیت های کاری بسیاری را در جهان امروز به خود اختصاص می دهد.
موضوع این کتاب علم داده است که درزمینه تحقیق و کاربرد علم داده توضیحات بسیار ارزشمندی را عنوان میکند. علم داده در چند دهه گذشته بهسرعت در حال رشد و توسعه بوده است. بهعنوان یک زمینه رو به رشد، توجه زیادی در رسانهها و همچنین در بازار کار به دست آورده است. توجه به علم داده پس از ظهور شرکتهای فناوری مدلسازی از اهمیت ویژهای برخوردار گردید و اخیرا شروع به استخدام تیمهای داده کاو متخصص کردهاند.
این کتاب تلاش خواهد کرد تا شکاف بین تخصص ریاضی / برنامهنویسی / دادهکاوی را متوقف کند. امروزه اکثر مردم حداقل یک (یا شاید دو) تخصص دارند، اما علم دادهکاوی به بیش از سه تخصص نیاز دارد. ما به موضوعاتی از هر سه تخصص وارد شدیم و مشکلات پیچیده را قابلحل ساختهایم.
برای ارزیابی نتایج علمی و دقیق، دادهها را تمیز، کشف و تحلیل خواهیم کرد. یادگیری ماشین و روشهای یادگیری عمیق که برای حل وظایف پیچیده داده مورداستفاده قرار میگیرد را بیان میکنیم.
فصل 1؛ چگونه بهعنوان یک متخصص علوم داده به نظر برسیم؟ 5
علم داده چیست؟ 7
اصطلاحات پایه 7
چرا علم داده؟ 9
مثال - تکنولوژیهای Sigma 9
نمودار ون علم داده 11
ریاضی 13
مثال ـ مدلهای spawner-recruit 13
برنامهنویسی کامپیوتر 15
چرا Python ؟ 15
پایتون در عمل 16
مثال پایه از پایتون 18
مثال- تجزیه یک توئیت واحد 19
حوزه دانش 20
برخی اصطلاحات بیشتر 21
مطالعات موردی در علوم داده 23
مطالعه موردی – خودکار و اتومازیسیون کردن فرمهای کاغذی دولتی 24
نادیده گرفتن جنبه انسانی، آیا درست است؟ 25
مطالعه موردی _ دلارهای بازاریابی 25
بودجههای تبلیغاتی 26
نمودار بودجههای تبلیغاتی 27
مطالعه موردی - چه چیزهایی در توصیف یک شغل استفاده میشود؟ 27
یک مثال از لیست کارهای متخصصان علوم داده 28
فصل 2؛ انواع داده 33
طعم و مزه دادهها 33
چرا باید به این تمایز نگاه کنیم؟ 34
دادههای ساختاریافته در برابر دادههای بدون ساختار 35
مثالهایی از پیشپردازش دادهها 36
شمارش کلمه / عبارت 37
وجود برخی کاراکترهای خاص 37
طول نسبی متن 37
انتخاب عنوانها (موضوعات) 38
دادههای کمّی در برابر دادههای کیفی 39
مثال ـ داده کافیشاپ 39
دو مورد مهم برای یادآوری 40
بررسی و کاوش عمیقتر 43
مسیر تاکنون پیموده شده . . . 43
چهار سطح داده 44
سطح اسمی 44
عملیات ریاضی مجاز 45
اندازه مرکز 45
چه دادههایی در سطح اسمی است 46
سطح رتبهای 46
مثالها 46
عملیات ریاضی مجاز 47
اندازه مرکز 47
بررسی و بازنگری سریع 49
سطح فاصلهای 49
مثال 49
عملیات ریاضی مجاز 50
اندازه مرکز 50
اندازه تغییرات 51
انحراف معیار 51
سطح نسبی 53
مثالها 53
اندازه مرکز 54
چالشهای سطح نسبی 54
دادهها در مقابل چشمان بیننده است!! 55
فصل 3؛ مراحل پنجگانه علوم داده 57
معرفی علم داده 57
بررسی پنج مرحله 57
پرسیدن یک سؤال جالب 58
به دست آوردن داده 58
بررسی داده 58
مدلسازی داده 59
برقراری ارتباط و بصری سازی نتایج 59
بررسی داده 59
سؤالات اساسی برای اکتشاف داده 60
مجموعه داده 1 – Yelp 61
فرمت دادهای 64
سریها 64
نکات اکتشافی برای دادههای کیفی 65
فیلتر کردن در pandas 67
ستونهای سطح مرتبهای 69
مجموعه داده 2 – titanic 71
فصل 4؛ ریاضیات پایه 77
ریاضیات بهعنوان یکرشته 77
اصطلاحات و نمادهای پایه 78
بردارها و ماتریسها 78
تمرین 81
نمادهای علم حساب 81
مجموع (جمع) 81
تناسب 82
حاصلضرب نقطهای 83
نمودارها 86
لگاریتم و نما 87
نظریه مجموعه 90
جبر خطی 95
ضرب ماتریسها 95
نکاتی در رابطه با ضرب ماتریسها 95
فصل 5؛ غیرممکن یا غیرمحتمل - مقدمهای ساده بر احتمال 101
تعاریف پایه 102
احتمال 102
بیزین در مقابل فریکوئنتیست 104
رویکرد فریکوئنتیست 104
مثال - آمار بازاریابی 105
قانون اعداد بزرگ 105
رویدادهای ترکیبی 107
احتمال شرطی 110
قوانین احتمال 111
قانون افزودن 111
انحصار متقابل 113
قانون ضرب 113
استقلال 115
رویدادهای تکمیلی 115
کمی عمیقتر بنگریم 116
فصل 6؛ احتمال پیشرفته 119
مجموعه رویدادهای جامع 119
ایدههای بیزی بازبینیشده 120
قاعده بیز 120
کاربردهای بیشتر قضیه بیز 124
مثال- تایتانیک 125
مثال- آزمایشهای پزشکی 126
متغیرهای تصادفی 128
متغیرهای تصادفی گسسته 129
انواع متغیرهای تصادفی گسسته 135
متغیرهای تصادفی دوجملهای 135
مثال- جلسات جمعآوری کمک مالی 136
مثال- افتتاح رستوران 136
مثال- گروه خونی 137
متغیرهای تصادفی هندسی 138
مثال- آبوهوا 139
متغیر تصادفی پواسون 140
مثال- مرکز تلفن 141
متغیرهای تصادفی پیوسته 142
فصل 7؛ آمار پایه 147
آمار چیست؟ 147
چگونه دادهها را به دست آوریم و نمونه بگیریم؟ 149
به دست آوردن اطلاعات 149
مشاهدهای 149
تجربی 150
دادههای نمونهگیری 152
نمونهگیری احتمالی 152
نمونهگیری تصادفی 153
نمونهگیری احتمالی نابرابر 154
چگونه میتوانیم آمار را اندازهگیری کنیم؟ 155
اندازهگیری مرکز 155
اندازهگیری متغیرها 156
تعریف 161
مثال- حقوق کارمندان 161
اندازهگیری مقادیر نسبی 162
بخش تفصیلی - همبستگی دادهها 168
قواعد تجربی 170
مثال - نمرات امتحان 172
فصل 8؛ آمار پیشرفته 173
برآورد نقطهای 173
توزیع نمونهگیری 178
فاصله اطمینان 181
آزمون فرضیه 184
انجام آزمون فرضیه 185
آزمون t تک نمونهای 187
مثالی از آزمون t تک نمونهای 187
فرضیههای یک نمونه آزمون t 188
خطای نوع اول و نوع دوم 191
آزمون فرضیه برای متغیرهای دستهای 191
آزمون نیکویی برازش کای اسکوئر 192
فرضیههایی از آزمون نیکویی برازش کای اسکوئر 192
مثالی از آزمون نیکویی برازش کای اسکوئر 193
آزمون کای اسکوئر برای وابسته / مستقل 195
فرضیه آزمون مستقل کای اسکوئر 195
فصل 9؛ به اشتراکگذاری داده 199
چرا به اشتراکگذاری مهم است؟ 200
تشخیص بصریسازی مؤثر و غیرمؤثر 200
نمودار پراکندگی 201
نمودارهای خطی 203
نمودار میلهای 204
هیستوگرام 206
نمودار جعبهای 208
هنگامیکه نمودارها و آمارها دروغ میگویند 211
همبستگی در مقابل علیت 211
پارادوکس سیمپسون 214
اگر همبستگی دو متغیر به معنی علت و معلول بودن آنها نباشد چهکار کنیم؟ 215
ارتباط کلامی 216
گفتن یک داستان 216
ارائه برای مکانهای رسمیتر 217
استراتژی "چرا، چگونه، چه چیزی"، برای ارائه دادن 218
فصل ؛ یادگیری ماشین 221
یادگیری ماشین چیست؟ 222
مثال- تشخیص چهره 223
یادگیری ماشین کامل نیست 224
یادگیری ماشین چگونه کار میکند؟ 225
مروری بر مدلهای یادگیری ماشین 226
انواع مختلف یادگیری ماشین 226
یادگیری تحت نظارت 227
مثال- پیشبینی حمله قلبی 227
انواع مختلف مدلهای یادگیری تحت نظارت 230
رگرسیون 230
طبقهبندی 231
مثال- رگرسیون 231
داده در چشمهای بیننده است 232
یادگیری بدون نظارت 232
یادگیری تقویتی 234
مروری بر انواع یادگیری ماشین 235
چگونه مدلسازی آماری در همه این مدلها تأثیر دارد؟ 237
رگرسیون خطی 237
اضافه کردن پیشگوهای بیشتر 243
معیارهای رگرسیون 245
رگرسیون لجستیک 253
احتمال، شانس و لگاریتم شانس 254
محاسبات ریاضی رگرسیون لجستیک 258
متغیرهای ساختگی 261
فصل 11؛ آیا میتوان از طریق درختان پیشبینیها را انجام داد؟ 267
طبقه و کلاسهبندی بیزین ساده 267
درخت تصمیم 276
چگونه یک کامپیوتر یک درخت رگرسیون ایجاد میکند؟ 278
چگونه رایانه مناسب یک درخت طبقهبندی است؟ 279
یادگیری بدون نظارت 284
چه موقعی از یادگیری بدون نظارت استفاده میکنیم 284
خوشهبندی K-means 285
یک مثال روشن – نقاط دادهای 287
مثال – دلستر 292
انتخاب یک شماره بهینه برای k و اعتبارسنجی خوشه 295
اثرگذاری Silhouette 295
استخراج ویژگی و تحلیل مؤلفه اصلی 297
فصل 12؛ فراتر از نیاز 309
توازن بین واریانس/بایاس 310
خطای ناشی از بایاس 310
خطای ناشی از واریانس 310
مثال- مقایسه وزن بدن و مغز پستانداران 311
نمودار پراکندگی وزن بدن و مغز پستانداران 313
همان نمودار پراکندگی قبلی با نمایش رگرسیون خطی در آن 314
نمودار پراکندگی برای نمونههای 1 و 2 315
استفاده از چندجملهای درجه چهار برای اهداف رگرسیون 317
نمودار پراکندگی با استفاده از چندجملهای درجه چهار بهعنوان تخمین دهنده ما 318
دو حالت نهایی از توازن واریانس/بایاس 318
کم برازش 318
بیش برازش 319
چگونگی تأثیر بایاس/واریانس در تابعهای خطا 319
اعتبارسنجی متقاطع K فولد 321
نمودار خطای KNN در مقابل پیچیدگی KNN 325
جستوجوی توری 325
بصری کردن خطای آموزشی در مقابل خطای اعتبارسنجی متقاطع 329
روشهای انسمبل 331
جنگل تصادفی 333
مقایسه جنگلهای تصادفی با درختهای تصمیم 338
شبکههای عصبی 339
ساختار اساسی 339
فصل 13؛ مطالعات موردی 347
مطالعه موردی نخست: پیشبینی قیمت سهام بر اساس رسانههای اجتماعی 347
آنالیز احساسات متن 347
تجزیهوتحلیل دادههای اکتشافی 348
روش رگرسیون 358
روش طبقهبندی 360
فراتر از این مثال رفتن 363
مطالعه موردی دوم: چرا برخی از مردم، همسران خود را فریب میدهند؟ 363
مطالعه موردی 3 - استفاده از tensorflow 372
Tensorflow و شبکههای عصبی 377
علم داده چیست؟ 7
اصطلاحات پایه 7
چرا علم داده؟ 9
مثال - تکنولوژیهای Sigma 9
نمودار ون علم داده 11
ریاضی 13
مثال ـ مدلهای spawner-recruit 13
برنامهنویسی کامپیوتر 15
چرا Python ؟ 15
پایتون در عمل 16
مثال پایه از پایتون 18
مثال- تجزیه یک توئیت واحد 19
حوزه دانش 20
برخی اصطلاحات بیشتر 21
مطالعات موردی در علوم داده 23
مطالعه موردی – خودکار و اتومازیسیون کردن فرمهای کاغذی دولتی 24
نادیده گرفتن جنبه انسانی، آیا درست است؟ 25
مطالعه موردی _ دلارهای بازاریابی 25
بودجههای تبلیغاتی 26
نمودار بودجههای تبلیغاتی 27
مطالعه موردی - چه چیزهایی در توصیف یک شغل استفاده میشود؟ 27
یک مثال از لیست کارهای متخصصان علوم داده 28
فصل 2؛ انواع داده 33
طعم و مزه دادهها 33
چرا باید به این تمایز نگاه کنیم؟ 34
دادههای ساختاریافته در برابر دادههای بدون ساختار 35
مثالهایی از پیشپردازش دادهها 36
شمارش کلمه / عبارت 37
وجود برخی کاراکترهای خاص 37
طول نسبی متن 37
انتخاب عنوانها (موضوعات) 38
دادههای کمّی در برابر دادههای کیفی 39
مثال ـ داده کافیشاپ 39
دو مورد مهم برای یادآوری 40
بررسی و کاوش عمیقتر 43
مسیر تاکنون پیموده شده . . . 43
چهار سطح داده 44
سطح اسمی 44
عملیات ریاضی مجاز 45
اندازه مرکز 45
چه دادههایی در سطح اسمی است 46
سطح رتبهای 46
مثالها 46
عملیات ریاضی مجاز 47
اندازه مرکز 47
بررسی و بازنگری سریع 49
سطح فاصلهای 49
مثال 49
عملیات ریاضی مجاز 50
اندازه مرکز 50
اندازه تغییرات 51
انحراف معیار 51
سطح نسبی 53
مثالها 53
اندازه مرکز 54
چالشهای سطح نسبی 54
دادهها در مقابل چشمان بیننده است!! 55
فصل 3؛ مراحل پنجگانه علوم داده 57
معرفی علم داده 57
بررسی پنج مرحله 57
پرسیدن یک سؤال جالب 58
به دست آوردن داده 58
بررسی داده 58
مدلسازی داده 59
برقراری ارتباط و بصری سازی نتایج 59
بررسی داده 59
سؤالات اساسی برای اکتشاف داده 60
مجموعه داده 1 – Yelp 61
فرمت دادهای 64
سریها 64
نکات اکتشافی برای دادههای کیفی 65
فیلتر کردن در pandas 67
ستونهای سطح مرتبهای 69
مجموعه داده 2 – titanic 71
فصل 4؛ ریاضیات پایه 77
ریاضیات بهعنوان یکرشته 77
اصطلاحات و نمادهای پایه 78
بردارها و ماتریسها 78
تمرین 81
نمادهای علم حساب 81
مجموع (جمع) 81
تناسب 82
حاصلضرب نقطهای 83
نمودارها 86
لگاریتم و نما 87
نظریه مجموعه 90
جبر خطی 95
ضرب ماتریسها 95
نکاتی در رابطه با ضرب ماتریسها 95
فصل 5؛ غیرممکن یا غیرمحتمل - مقدمهای ساده بر احتمال 101
تعاریف پایه 102
احتمال 102
بیزین در مقابل فریکوئنتیست 104
رویکرد فریکوئنتیست 104
مثال - آمار بازاریابی 105
قانون اعداد بزرگ 105
رویدادهای ترکیبی 107
احتمال شرطی 110
قوانین احتمال 111
قانون افزودن 111
انحصار متقابل 113
قانون ضرب 113
استقلال 115
رویدادهای تکمیلی 115
کمی عمیقتر بنگریم 116
فصل 6؛ احتمال پیشرفته 119
مجموعه رویدادهای جامع 119
ایدههای بیزی بازبینیشده 120
قاعده بیز 120
کاربردهای بیشتر قضیه بیز 124
مثال- تایتانیک 125
مثال- آزمایشهای پزشکی 126
متغیرهای تصادفی 128
متغیرهای تصادفی گسسته 129
انواع متغیرهای تصادفی گسسته 135
متغیرهای تصادفی دوجملهای 135
مثال- جلسات جمعآوری کمک مالی 136
مثال- افتتاح رستوران 136
مثال- گروه خونی 137
متغیرهای تصادفی هندسی 138
مثال- آبوهوا 139
متغیر تصادفی پواسون 140
مثال- مرکز تلفن 141
متغیرهای تصادفی پیوسته 142
فصل 7؛ آمار پایه 147
آمار چیست؟ 147
چگونه دادهها را به دست آوریم و نمونه بگیریم؟ 149
به دست آوردن اطلاعات 149
مشاهدهای 149
تجربی 150
دادههای نمونهگیری 152
نمونهگیری احتمالی 152
نمونهگیری تصادفی 153
نمونهگیری احتمالی نابرابر 154
چگونه میتوانیم آمار را اندازهگیری کنیم؟ 155
اندازهگیری مرکز 155
اندازهگیری متغیرها 156
تعریف 161
مثال- حقوق کارمندان 161
اندازهگیری مقادیر نسبی 162
بخش تفصیلی - همبستگی دادهها 168
قواعد تجربی 170
مثال - نمرات امتحان 172
فصل 8؛ آمار پیشرفته 173
برآورد نقطهای 173
توزیع نمونهگیری 178
فاصله اطمینان 181
آزمون فرضیه 184
انجام آزمون فرضیه 185
آزمون t تک نمونهای 187
مثالی از آزمون t تک نمونهای 187
فرضیههای یک نمونه آزمون t 188
خطای نوع اول و نوع دوم 191
آزمون فرضیه برای متغیرهای دستهای 191
آزمون نیکویی برازش کای اسکوئر 192
فرضیههایی از آزمون نیکویی برازش کای اسکوئر 192
مثالی از آزمون نیکویی برازش کای اسکوئر 193
آزمون کای اسکوئر برای وابسته / مستقل 195
فرضیه آزمون مستقل کای اسکوئر 195
فصل 9؛ به اشتراکگذاری داده 199
چرا به اشتراکگذاری مهم است؟ 200
تشخیص بصریسازی مؤثر و غیرمؤثر 200
نمودار پراکندگی 201
نمودارهای خطی 203
نمودار میلهای 204
هیستوگرام 206
نمودار جعبهای 208
هنگامیکه نمودارها و آمارها دروغ میگویند 211
همبستگی در مقابل علیت 211
پارادوکس سیمپسون 214
اگر همبستگی دو متغیر به معنی علت و معلول بودن آنها نباشد چهکار کنیم؟ 215
ارتباط کلامی 216
گفتن یک داستان 216
ارائه برای مکانهای رسمیتر 217
استراتژی "چرا، چگونه، چه چیزی"، برای ارائه دادن 218
فصل ؛ یادگیری ماشین 221
یادگیری ماشین چیست؟ 222
مثال- تشخیص چهره 223
یادگیری ماشین کامل نیست 224
یادگیری ماشین چگونه کار میکند؟ 225
مروری بر مدلهای یادگیری ماشین 226
انواع مختلف یادگیری ماشین 226
یادگیری تحت نظارت 227
مثال- پیشبینی حمله قلبی 227
انواع مختلف مدلهای یادگیری تحت نظارت 230
رگرسیون 230
طبقهبندی 231
مثال- رگرسیون 231
داده در چشمهای بیننده است 232
یادگیری بدون نظارت 232
یادگیری تقویتی 234
مروری بر انواع یادگیری ماشین 235
چگونه مدلسازی آماری در همه این مدلها تأثیر دارد؟ 237
رگرسیون خطی 237
اضافه کردن پیشگوهای بیشتر 243
معیارهای رگرسیون 245
رگرسیون لجستیک 253
احتمال، شانس و لگاریتم شانس 254
محاسبات ریاضی رگرسیون لجستیک 258
متغیرهای ساختگی 261
فصل 11؛ آیا میتوان از طریق درختان پیشبینیها را انجام داد؟ 267
طبقه و کلاسهبندی بیزین ساده 267
درخت تصمیم 276
چگونه یک کامپیوتر یک درخت رگرسیون ایجاد میکند؟ 278
چگونه رایانه مناسب یک درخت طبقهبندی است؟ 279
یادگیری بدون نظارت 284
چه موقعی از یادگیری بدون نظارت استفاده میکنیم 284
خوشهبندی K-means 285
یک مثال روشن – نقاط دادهای 287
مثال – دلستر 292
انتخاب یک شماره بهینه برای k و اعتبارسنجی خوشه 295
اثرگذاری Silhouette 295
استخراج ویژگی و تحلیل مؤلفه اصلی 297
فصل 12؛ فراتر از نیاز 309
توازن بین واریانس/بایاس 310
خطای ناشی از بایاس 310
خطای ناشی از واریانس 310
مثال- مقایسه وزن بدن و مغز پستانداران 311
نمودار پراکندگی وزن بدن و مغز پستانداران 313
همان نمودار پراکندگی قبلی با نمایش رگرسیون خطی در آن 314
نمودار پراکندگی برای نمونههای 1 و 2 315
استفاده از چندجملهای درجه چهار برای اهداف رگرسیون 317
نمودار پراکندگی با استفاده از چندجملهای درجه چهار بهعنوان تخمین دهنده ما 318
دو حالت نهایی از توازن واریانس/بایاس 318
کم برازش 318
بیش برازش 319
چگونگی تأثیر بایاس/واریانس در تابعهای خطا 319
اعتبارسنجی متقاطع K فولد 321
نمودار خطای KNN در مقابل پیچیدگی KNN 325
جستوجوی توری 325
بصری کردن خطای آموزشی در مقابل خطای اعتبارسنجی متقاطع 329
روشهای انسمبل 331
جنگل تصادفی 333
مقایسه جنگلهای تصادفی با درختهای تصمیم 338
شبکههای عصبی 339
ساختار اساسی 339
فصل 13؛ مطالعات موردی 347
مطالعه موردی نخست: پیشبینی قیمت سهام بر اساس رسانههای اجتماعی 347
آنالیز احساسات متن 347
تجزیهوتحلیل دادههای اکتشافی 348
روش رگرسیون 358
روش طبقهبندی 360
فراتر از این مثال رفتن 363
مطالعه موردی دوم: چرا برخی از مردم، همسران خود را فریب میدهند؟ 363
مطالعه موردی 3 - استفاده از tensorflow 372
Tensorflow و شبکههای عصبی 377
# | موضوع | عنوان | توضیح | دانلود |
---|---|---|---|---|
1 | نمونه pdf | صفخات آغازین کتاب | دانلود |