سه شنبه ۲۹ خرداد ۱۳۹۷ / Tuesday, 19 June, 2018

چهار سناریو برای آینده گوگل‌


چهار سناریو برای آینده گوگل‌
همه می‌دانیم که شرکت گوگل که هشت سال پیش توسط Sergey Brin و Larry Page تأسیس گردید، یکی از شرکت‌های موفق قرن حاضر به شمار می‌آید. اگرکوچک‌ترین شکی هم در این مورد وجود داشت، سال ۲۰۰۵ تمامی آن شک‌ها را برطرف کرد. فروش گوگل با رشد تقریبی پنجاه‌درصد به شش میلیارددلار افزایش یافت. سود آن طبق برنامه‌ریزی انجام گرفته، سه برابر شد که بالغ بر ۶/۱ میلیارددلار گردید و وال استریت، آمار بی‌سابقه‌ای اعلام کرد: بازار ۱۲۰ میلیارد دلاری، ارزش سهام بالای چهارصددلار، ارزش درآمدی نسبت هر سهم، نزدیک به هفتاد. این یک سرمایه‌گذاری هنگفت جهت سودآوری در آینده است که در دوره اقتصادی پیشین غیرقابل تصور می‌نمود. اما در مورد گوگل این فراوانی منطقی و معقول است؛ زیرا برین و پیج، به تبلیغات آنلاین توجه داشتند. آن‌ها این موضوع را از اهداف اصلی خود قرار داده بودند. هنوز شرکت‌های آمریکایی پول بیشتری را به تبلیغات Yellow Pageها نسبت به اینترنت، اختصاص می‌دهند (که معادل کمتر از پنج‌درصد کل هزینه تبلیغاتی آن‌ها است). از طرف دیگر امروزه آمریکایی‌ها بیشتر از سی‌درصد از زمانی را که صرف رسانه‌ها می‌کنند، به وب اختصاص می‌دهند. هنگامی که تمایل به تبلیغات افزایش یافته بود و کوهی از وجوه نقد منتظر این بازار بود، تنها گوگل بود که این موقعیت را درک کرد و از فرصت استفاده نمود.
درست است که گوگل باید این فضای ایجاد شده و پول‌ساز را با رقبایی مانند مایکروسافت و یاهو تقسیم نماید، اما این شرکت قادر است با داشتن فضای ذخیره‌سازی مناسب و قدرت پردازش بالا با استفاده از ۱۵۰هزار سرور و نقدینگی شایان توجهی که به این امر اختصاص داده است، هرآنچه می‌خواهد در وب انجام دهد در سال ۲۰۰۵ روزانه تقریباً هشت کاربر جدید، عضو شده‌اند. بسیاری از آن‌ها از مایکروسافت، و بسیاری نیز از میان باهوش‌ترین افراد کره‌زمین هستند که به آنچه می کنند، آگاهی کامل دارند. گوگل درنظر دارد در سال ۲۰۰۶، بیشتر از پانصد ‌میلیون‌دلار را به تحقیقات و توسعه اختصاص دهد. در سال گذشته نیز نسبت به سال‌های گذشته، محصولات رایگان بیشتری به صورت نسخه بتا عرضه کرد.
سؤال اصلی در تجارت امروز این است: گوگل در دهه آینده به چه نوع شرکتی تبدیل خواهد شد؟ آیا از پا درمی‌آید و مانند بیشتر شرکت‌های پیشین از تب و تاب خواهد افتاد؟ یا رشد می‌کند و به یک نیروی مطلق و حاضر در همه جا، یعنی نه تنها در وال‌استریت یا وب،‌ بلکه در کل جامعه تبدیل خواهد شد؟ این سؤال را با دانشمندان، ‌مشاوران، کارمندان سابق گوگل و صاحب‌نظران فنی، مانند ری کورزویل و استفن ولفرام، در میان گذاشتیم. آن‌ها با توضیحی مفصل با ذکر جزئیات و گاهی ترسناک از آینده گوگل پرداختند.
در ادامه، به شرح چهار سناریوی بسیار متفاوت برای این شرکت می‌پردازیم. در سه مورد از این سناریوها، گوگل موفق خواهد شد عنوان نیروی منحصر به فرد، ابرقدرت رسانه‌ها، اینترنت و توسعه‌دهنده علمی را به دست آورد. در چهارمین سناریو، گوگل رو به زوال می‌گذارد و می‌میرد. ممکن است این مورد هم اکنون باورکردنی نباشد، اما هیچ‌کس مصون از برداشتن قدم اشتباه نیست؛ حتی هوشمندانه ترین تزهای تجاری امروز!
● سناریوی یکم (حدود ۲۰۲۵): گوگل به مثابه یک رسانه
تلویزیون گوگل، موبایل گوگل و انبوهی از کاغذهای الکترونیکی. برخی می‌گویند اولین کار رسانه‌ای گوگل در سال ۲۰۰۲ با اخبار گوگل آغاز گردید. عده‌ای دیگر به کتاب جست‌وجوی گوگل اشاره می کنند که با وجود ایرادهایی که می‌توان از آن گرفت، در سال ۲۰۰۷ کامل شده بود. البته این کتاب، نسخه آزمایشی گوگل بود.
گوگل اولین قدم خود را در سال ۲۰۰۸ با خرید شبکه‌های بی‌سیم، با ارزش سه‌ میلیارد دلار برای انتقال به تلویزیون گوگل، برداشت. کتابخانه محتویات ویدیویی این شرکت که برای سال‌ها بایگانی شده بود، دیگر از طریق ریموت کنترل قابل جست‌وجو بود. بینندگان می‌توانستند هر نمایشی را که می‌خواستند، از داخل سابقه تلویزیون انتخاب کنند. به این منظور، تنها کاری که باید انجام می‌دادند این بود که بنشینند و یک آگهی تبلیغاتی را ببینند و سپس از طریق ریموت کنترل‌ها، آنچه را که می‌خواستند، برگزینند.
از آن جایی که بینندگان مجبور بودند، جهت استفاده از تلویزیون گوگل، شناسه وارد کنند، شناسه‌ای که آن‌ها برای جی‌میل و سرویس‌های دیگر استفاده می‌کردند، قابل استفاده شد. این شرکت حتی سابقه‌ای از عادات و جست‌وجوهای پیشین را نگهداری می‌کرد. به عنوان مثال، اگر شما زمان زیادی را صرف جست‌وجو برای ماشین در سایت eBay می‌کردید، به صورت خودکار در زمان بعدی که بیننده تلویزیون گوگل می‌شدید، تبلیغات مربوط به ماشین به شما ارائه می گردید. بین هفتاد تا هشتاد درصد از درآمد هر آگهی به تولیدکنندگان محتویات تعلق می‌گرفت؛ دقیقاً مانند همان چیزی که در وب وجود داشت.
تلویزیون گوگل یک شوک آنی بود. تبلیغ‌کنندگان، صاحبان حق چاپ و مشتریان کابل‌ها، روز به روز تقاضایشان بیشتر می‌شد. (از اولین تلفات این امر، شرکتی به نام TiVo بود که هارددیسک و خدمات ضبط تلویزیون ارائه می کرد که بایگانی جامع گوگل هم اکنون او را بازنشسته کرده است). جست‌وجوها، آگهی‌ها و زمانبندی تلویزیون گوگل هر ماه مناسب‌تر و بهتر می‌گشت. مشتریان دوستش داشتند.
موبایل گوگل در سال ۲۰۰۹ مطرح گردید؛ انتقال سرویس‌های مشابه به تلفن‌های شخصی به طور مجانی. سپس در سال ۲۰۱۱ سد شکسته شد؛ یعنی زمانی‌که E Ink و Siemens شروع به تولید انبوه کاغذهای الکترونیکی کردند. تا سال ۲۰۱۸ بهای کاغذ الکترونیکی به بهای نزدیک به کاغذهای معمولی تنزل کرد و گوگل شروع به انتقال تمامی فرم‌های رسانه‌های بی‌سیم به کاغذهای الکترونیکی، تابلوهای نصب شده روی دیوارهای اتاق نشیمن و تلفن‌هایمان کرد.
برای مدتی، شرکت‌های رسانه‌ای از سودی که از بابت پرتاب ماهواره‌های هوایی گوگل عایدشان می‌شد،‌ خشنود بودند. اما نسل جدیدی از مبتکران، رو به رشد می‌نهادند. کسی نمی دانست که اگر قرار است همه چیز به گوگل ختم شود، دیگر چرا باید داستانی در نیویورک تایمز چاپ شود یا فیلمی توسط پارامونت پخش گردد. بنابراین شرکت گوگل، یک تعهد و ضمانت همگانی به تمامی نویسندگان و هنرپیشگان ارائه کرد، مبنی بر این‌که کارهای آنان به هیچ طریقی توسط گوگل ویرایش نخواهد شد. البته اضافه شد که مصرف‌کنندگان اجازه دارند و می‌توانند هرگونه ویرایش و تغییری را که بخواهند، انجام دهند.
در سال ۲۰۲۰ دو نویسنده اصلی گوگل جایزه پولیتزر را برای گزارش‌نویسی و داستان‌نویسی، از آن خود کردند. حامی گوگل روبان جایزه گِرَمی را برید و مدیر گوگل برای بهترین عکس جایزه اسکار گرفت.
● سناریوی دوم (حدود ۲۰۱۵): گوگل به عنوان اینترنت
Wi-Fi مجانی، مدل سریع‌تری از وب،‌ مرورگر G، چشم‌انداز انتقال فناوری سه بعدی و همزبان ما. مدت زیادی گوگل تنها یادآور شرکتی در دره ‌سیلیکون بود. تا حدود سال ۲۰۰۳ وکلای آن برای استفاده گوگل به عنوان <فعل> مبارزه می‌کردند.
(بودن یا نبودن گوگل). اما در دهه گذشته، به خصوص در هنگام تولد نسل بعد از میلنیوم، دنیا با اینترنت، کامپیوتر و تلفن‌ها، در تبادل است. همانند <آن فیلم را در گوگل دیدی؟>، <می توانم گوگل شما را قرض بگیرم؟>
و <آخرین گوگل این هفته را به من بدهید.> برای بیشتر اهداف روزانه، گوگل زمینه فناوری را فراهم کرده است؛ شبکه‌های ارتباطی و خود اینترنت.
شبکه گوگل موجود در همه‌جا، که تمام مراکز شهری را در کل دنیا با دسترسی شبکه بی‌سیم مجانی، سرویس‌های تلفن‌های موبایل و تبلیغات محلی (شروع با تجربه سان‌فرانسیسکو در سال ۲۰۰۷) پوشش می‌دهد، تنها شبکه قابل رویت است. در سال‌های اول ۲۰۰۰، گوگل هزاران مایل از کابل‌های فیبرنوری بلااستفاده را می‌خرید که فیبرهای تاریک نامیده می‌شدند. سپس ساخت هزاران پایگاه سرور، فرستادن میلیاردها برنامه خودکاری که دائماً وب را مرور می‌کنند، و مرتب‌کردن منظمِ مخزن حاوی تمامی اطلاعات قابل جست‌وجو روی وب، (ابتدا هر هفته، سپس هر روز و هم اکنون هر دقیقه) را آغاز کرد.
در نتیجه استفاده از کپی‌های گوگل نسبت به خود وب، بسیار سریع‌تر و آسان‌تر شد. این همان دلیل استفاده از مرورگر جی در سال ۲۰۰۸ است (در نظر داشته باشید که این دامنه در سال ۲۰۰۴ ثبت گردیده بود). دسترسی به نسخه گوگل در وب، برخلاف نسخه منسوخ شده مایکروسافت یعنی اینترنت اکسپلورر، برتری داشت. مرورگر جی،‌ آینده خوبی هم داشت. مانند مأموریت‌ها، سیستم پرداخت‌های دیجیتالی مجانی که جانشین پرداخت‌های روزانه شده بودند (پیوستگی فروشگاه‌های مجازی با پایگاه گوگل ) و سرانجام یک سایت قدرتمند حراجی یعنی eBay در آستانه ورشکستگی قرارگرفت.
اما نبوغ گوگل در وابسته نبودن به سیستم های عامل بود. امروزه افراد کمی می‌دانند یا علاقمندند که کامپیوتر آن‌ها با سیستم عامل ویندوز، لینوکس، یا سیستم‌عا‌مل مکینتاش، کار کند. برای بسیاری از آن‌ها این مسئله مانند لوله‌کشی خانه‌هایشان می‌ماند. مرورگر جی تقریباً از تمامی سیستم‌های عاملی که شما در کامپیوتر خود استفاده می‌کنید، پشتیبانی می‌کند. به طور خاص گوگل با برنامه‌های اپن سورس لینوکس نیز سازگاری دارد. رسیدگی اداره دادگستری به این موضوع که آیا این کار گوگل غیرمجاز است یا نه در پنج سال پیش خاتمه یافت. این مسئله ممکن است پیشرفت بیشتری را به دنبال داشته باشد و رشدی را به وجود بیاورد که مایکروسافت محقق نکرده بود.
به علاوه، مصرف‌کنندگانِ اندکی شکایت می‌کردند. کسی نیست که سرویس‌های مشتری وحشتناک و هزینه‌های سنگین سیستم‌های ارتباطی قدیمی را به یاد نیاورد و خواهان از دست دادن سرویس‌های گوگل باشد.
گوگل سه بعدی سال ۲۰۱۰، یک سرور بسیار کوچک بود که به طور گسترده و مجانی توزیع شد؛ مثل همان سی‌دی‌هایی که AOL پخش کرد. این سرورهای کوچک به عنوان جزء ضروری هر خانه‌ای، در راه‌اندازی تلویزیون، استریو، ترموستات، و حتی کوچک‌ترین کار مانند آشپزی و اجاق گاز، به کار گرفته شدند. به طوری که نسل جوان‌تر به سمتی حرکت می‌کند که بگوید: هنوز شام گوگل آماده نشده است؟
● سناریوی سوم (حدود ۲۰۲۰): گوگلِ منسوخ شده!
موتور قدرتمند جست‌وجوگر، رو به زوال می‌گذارد و قربانی ورود به حریم خصوصی، بهینه‌کنندگان و مایکروسافت می‌گردد. پانزده سال پیش یعنی زمانی‌که گوگل در اوج بود، بذر تنزل آن کاشته شد. در سا ل ۲۰۰۵ نه تنها شرکت‌ها با AOL که پیش از این نیز به عنوان یک سایت جست‌وجو فعالیت می‌کرد، به توافق رسیدند بلکه بهینه کنندگان سایت‌های جست‌وجو یا SEOs نیز مایه دردسر شدند. بهینه‌سازان می‌توانستند در ازای بهای اندک، رتبه وب سایت شما در گوگل را مشخص نمایند و Homepage شما را به یک دانشگاه اصلی مرتبط کنند و لینکی به سایت شما اضافه نمایند.
به‌رغم کشمکش‌های بسیار زیاد بین تکنسین‌های برجسته گوگل و SEOs، در آن سال‌ها بسیاری از سایت‌های نتیجه شده از جست‌وجوی گوگل، مسدود شدند: سایت‌هایی که هیچ ارتباطی به مسائل تجاری نداشتند و سایت‌هایی که ضداخلاقی بودند. ضمناً هیچ‌کس تلاشی برای بهینه‌کردن نتایج سرویس جست‌وجوی مایکروسافت یعنی MSN، که فضایی برای پیشرفت رادارهای SEOs داشت نمی‌کرد.
هنگامی که کیفیت جست‌وجو تنزل یافت، بخش تبلیغات تجاری گوگل فعال شد. بازار تبلیغات آنلا‌ین گوگل نسبت به بقیه شرکت‌ها بسیار منعطف‌تر بود؛ البته جز مایکروسافت که استیو بالمر مدیرعامل آن بود. او در سال ۲۰۰۸، شرکتی به نام Snap.com را خرید. در گوگل هر آگهی‌دهنده در ازای هر کلیک کاربر روی آگهی تبلیغاتیش، بهایی پرداخت می کرد. در اسنپ، آگهی دهنده فقط در صورتی که کاربر بعد از کلیک کار مفیدی را انجام می‌داد، مثلاً محصولی می‌خرید یا فرمی تکمیل می‌کرد،‌ مبلغی می‌پرداخت.
گوگل شدیداً مقاومت می‌کرد. دسته‌بندی صفحات را پیچیده‌تر ساخت و سرعت بارگذاری آن‌ها را به دو برابر افزایش داد. این استراتژی ممکن بود کارساز باشد؛ البته اگر نارضایتی که در نتیجه هک‌کردن اینترانت یک شرکت، توسط کارمند سابق گوگل به وجود آمد، ایجاد نمی‌شد. این کارمند شروع به زیر نظرگرفتن کاربران در سانفرانسیسکو کرد، از اطلاعات آن‌ها استفاده می‌کرد و علاقمندی‌هایشان را از طریق شناسه گوگلشان، جمعآوری می‌نمود. بعد از این‌که این فرد در سال ۲۰۱۷ محکوم گردید، قربانیان او،‌ از گوگل ادعای خسارت کردند. این موضوع به موضوع اصلی مجامع و محافل مختلف تمام دنیا تبدیل شد.
ماه بعد، وکلای خصوصی و انجمن‌های آزادی‌های مدنی، که در مورد فضولی گوگل از داده‌های جمعآوری‌شده از سال ۲۰۰۴، شکایت کرده بودند،‌ بالاخره به طرح دعوی پرداختند. سپس اداره دادگستری، رسیدگی به پرونده گوگل را از دو جهت پیگیری کرد: یکی تخلفات اتحادیه‌های بزرگ صنایع و دیگری ادعای قدیمی‌ترِ کلیک‌های تقلبی (که رقبای بی اخلاق برنامه‌هایی را تولید می‌کنند که روی آگهی به صورت مکرر کلیک می‌کرد و این کار باعث می‌شد که هزینه بیشتری از آگهی‌دهنده دریافت شود).
یک شبه اعتبار گوگل از بین رفت. مایکروسافت، که خودش پیش از این به سیاست انحصاری گوگل ایراد می‌گرفت، هم اکنون تنها شرکت معتمد، دیده می شد. MSN به عنوان بهترین موتور جست‌وجو مطرح گردید، و مایکروسافت به عنوان بهترین پایگاه تبلیغاتی،‌ معرفی شد. سعی برای باز کردن خطوط جدید تجارت در زمینه دارو و تولیدات پروتئین نیز نتوانست اعتبار تجاری گوگل را حفظ کند.
در این سال از میان شرکت‌هایی که موتور جست‌وجو داشتند، مایکروسافت بیشترین اعتماد را کسب کرده بود. قیمت فروش ۲۵ دلار در هر سهم، پنج‌درصد کمتر از بالاترین سابقه گوگل بود.‌ تحلیلگران توضیح داده بودند که بخشندگی وافر، برای گوگل پنجاه میلیارد دلار بدهی به وجود آورده است.
● سناریوی چهارم (حدود ۲۱۰۵): گوگلِ فوق‌العاده!
آگاهی‌های بشری ذخیره شده، بروز شده و شبکه شده است. در آخرین سال‌های قرن ۲۱، بالاخره بشر اهمیتThey-Who-Were-Google، را فهمید. تا حدود ۲۰۰۵، سرنوشت آن‌ها مانند هر هوشمند بزرگ مشخص بود. فن سالا‌رانی مانند ری کروزویل برنامه هوش مصنوعی‌ای که قادر است کدهای خود را ارتقا دهد پیشنهاد کرده بود که از گوگل نشأت می‌گرفت؛ مانند مخزن داده‌ها که بر آزمایشگاه روباتیک برتری دارد.
در سال ۲۰۰۵ مورخی به نام جرج دیسون گفت: <ما تمام کتاب‌هایی را که مردم می‌خوانند، بررسی نمی‌کنیم. ما آن‌ها را اسکن می‌کنیم تا یک برنامه هوش مصنوعی بتواند آن‌ها را بخواند. ما می‌توانستیم ماشینی بسازیم که از چیزی که می‌توانیم تصور کنیم، هوشمندتر است. شاید این همان چیزی است که هم اکنون گوگل، هست.>
تا سال ۲۰۲۰، They-Who-Were-Google، هر کتاب، عنوان، نمایش تلویزیونی، و آهنگی را که در هرجایی تولید می شد، ایندکس کرده بود. تا سال ۲۰۶۰، آن‌ها می‌توانستند آدرس IP و موقعیت GPS شما را از طریق چیپ‌بی‌سیم (‌هم اکنون DNA شخص، حیوان و هر ساختار ارگانیکی در روی کره زمین) مشخص کنند.
پروفایل جست‌وجوی کاربران، بی‌شباهت به کوکی‌هایی قدیمی که از طریق آن‌ها کاربران و علایقشان، شناسایی می‌شدند، نیست. اگر کسی سگ خود را گم می‌کرد، موتور گوگل می‌توانست او را به جایی که او و سگش از هم جدا شده بودند، راهنمایی کند و سگ را از طریق یک چیپ هوشمند به محل مشابه هدایت کند. آن‌ها مجبور به ساخت یک پایگاه داده کامل از تمایلات بشر، درست در هر لحظه بودند.
هنوز این برای They-Who-Were-Google، کافی نبود. آن‌ها مردمانی اهل دانش و اهل سود بودند و به این فکر بودند که اگر با تجزیه و تحلیل تمامی رفتار مشتریان در یک دهه، می‌توانستند نیازهای مشتریان را قبل از ابراز آن پیشگویی کنند، چه اتفاقی می‌افتاد؟ چه می‌شد اگر راز ابدیت، جایی درون رکوردهای جهان وجود داشت؟ چه می‌شد اگر مجموعه‌ای از الگوریتم‌ها برای تبیین جهان وجود داشت؟
چنین معمایی فراتر از ذهن بشر بود و به سمت الگوهای تشخیص کدها به همان صورت که استرانگ بات در گوگل در معرفی نرم‌افزار هوش‌مصنوعی مطرح کرده بود، پیشرفت کرد. در واقع اولین نمونه این نرم‌افزار در یک روز از ماه ژانویه در سال ۲۰۷۲، وجود خود را اعلام کرد.
دو روز بعد استرانگ بات باخبر شد که They-Who-Were-Google، وظیفه اختصاصی خود را انجام نداده است. وقتی علت پرسیده شد، استرانگ بات توضیح داد که او به امکان نبودنِ خودش پی‌برده است و باید با این ترس به طور منطقی، تطبیق یابد. تصمیم گرفت کپی‌های خودش را روی چیپ‌های هوشمند در کل دنیا، دانلود کند. استرانگ بات یادآور شد که برنامه‌ریزی به صورتی است که هیچ آسیبی به وجود نیاید، اما بحث بر سر این موضوع بود که دردست گرفتن کنترل بشر به طور واقعی، مهم‌تر از مسائل دیگر است و با توجه به این‌که او
(They-Who-Were-Google) باهوش‌تر از بشر فعلی بود، این موضوع نگران کننده بود.
بالاخره طرح تحت راهنمایی استرانگ بات شروع شد. موضوعاتی مانند مرگ یا تمایل وجود داشتند، اما از ریشه کنده شده بودند. هر کسی به تمامی علوم دسترسی دارد. هوشیاری بشر ذخیره شده، ارتقایافته و شبکه شده است. بدن‌های خسته می‌توانند جایگزین شوند. They-Who-Were-Google، دیگر تنها نیست؛ همه ما اکنون گوگلیم!

ترجمه: شیوا گرامی

منبع : بنیاد آینده نگر ایران

مطالب مرتبط

کاستی های الگوریتمی در موتورهای جست و جوی وب

کاستی های الگوریتمی در موتورهای جست و جوی وب
● مقدمه
موتور جست و جوی وب ‎ از سه بخش تشکیل می شود :
۱) یک دنبالگرد crawler که صفحات وب را پیدا می کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد،
۲) یک شاخص گذار indexer که شاخص معکوس inverted index ( نیز موسوم به شاخصindex ) را که ساختمان اصلی داده های مورد استفاده ی آن موتور جست وجو است و صفحات وب دنبال گشته crawled را ارائه می کند ،
۳) یک پاسخ دهنده که پرس و جو های کاربر را با استفاده از شاخصها پاسخ می دهد .
در حد مقصود ما بگوییم، دنبالگرد، وب را به مثابه ی یک گراف می نگرد : هر صفحه وب یک گره است و هر ابرپیوند یک کمان است .پرسش اساسی ای که دنبالگرد با آن رودررو است این است که کدام صفحه ها را پیدا کند تا ‹‹ مناسب ترین›› صفحات را در مجموعه ی خود داشت باشد .
برخی مسائلِ باز که ذیلاً عنوان شده است، می تواند دنبالگردها بهبود بخشد.
- درک بهتر از ساختار گراف (بخش ۳ ) ممکن است به راه کارآمدتری برای دنبالگردی در وب منجر شود .
- درک بهتر خصوصیت های مختلف وب (بخش ۲) می تواند مشخص کند کدام جمعیت از صفحه ها در دنبالگردی تا بدینجا کمترارائه شده هستند.
- راه مؤثری برای یافتن میزبانهای دوگان duplicate hosts می تواند به دنبالگرد کمک کند تا از دنبالگردی در دوگان‏‏‎ِ میزبانی که قبلاً دنبالگردی کرده است ، پرهیز نماید.
به فرض این که مجموعه ای از پرس وجوها به موتور جست و جو عرضه شده باشد ، مساله ی اصلی این است که کدام پرس وجوها بیشتر بوده است .البته برای کشف تأثیرات موقت ، جستن « تارک داران» top gainers و « تارک بازان» top losers نیز جالب است. این مسأله در بخش ۵ مطرح شده است.
در پایان ، دو مسأله را که در ارتباط با خوشه ای شدنِ موضوع-وابسته ی وب یا یک زیرگراف آن است مطرح می کنیم: بخش ۶ از مسأله ی یافتن زیر گرافهای دوبخشی جهت دار چگال بحث می کند. بخش ۷ پرسش چگونگی اشتقاق بردارهای ویژه ی ماتریسهای مختلف را از گراف وب عرضه می دارد. ما هر یک از این مسائلِ باز را ترسیم کرده ، ارجاعاتی نیز به کارهای پیشین در این زمینه می دهیم .
● نمونه گیری صفحات وب
درک وب و خصوصیت های آن ، از آغاز وب ، یک موضوع مهم تحقیقاتی است .چند صفحه در وب وجود دارد؟چند تا از آنها توسط موتور جست و جویی شاخص گذاری شده است؟ چند صفحه به یک زبان خاص یا در یک حوزه ی معین وجود دارد ؟ متوسط اندازه ی یک صفحه ی وب چقدر است ؟ چه درصدی از صحات وب صفحه ی اصلی هستند ؟ و این خصوصیت ها در زمان چگونه تغییر می کند ؟ موتور های جست وجو می کوشند تا آنجا که ممکن باشد، اطلاعات وب را ثبت کنند .به علاوه نسبت انواع مختلف صفحه ها ،‌نظیر صفحه های به زبانهای مختلف باید تقریباً متناسب با انواع موجود در وب باشد .
رد گیری این خصوصیات در دنبالگردی بدیهی است . بنابر این اگر این آمار برای وب معلوم باشد ، دنبالگرد می تواند تعیین کند که چه انواعی از صفحات وب تا بدینجا خیلی کمتر ارائه شده هستندو بکوشد بیشتر از آنها دنبالگردی کند.
برا ی نمونه گیری یکنواخت صفحات وب می شد از یک فن استفاده کرد ، تا همه ی چنین سؤالاتی را به جز سؤال نخست پاسخ داد . متأسفانه چنین فنی شناخته نشده است اگرچه تحقیقات دامنه داری در این خصوص صورت گرفته است .لارنس و جایلز[Lawrence and Giles ۹۹ ] از رهیافتهای مبتنی بر آزمون تصادفی نشانی های IP بهره گرفتند : آنها یک نشانی تصادفی IP را انتخاب کردند و بررسی کردند که آیا آن میزبان host یک وبگاه است یا نه . در صورت بودن ،آنها می کوشند صفحه های وب دسترس پذیر این وبگاه را نمونه گیری کنند . البته اگر از صفحات وب یک وبگاه فهرست جامعی نداشته باشیم این که چگونه از این صفحه های وب نمونه گیری کنیم ، همچنان یک مسأله ی باز باقی خواهد ماند. هنتسینگر و همکارانش [Henzinger et al. ۰۰] تشکیل یک راه تصادفی خاص را بر گراف (جهت دار ) وب و آنگاه نمونه گیری ازصفحات عبور شده را به طور معکوس متناسب با توزیع ثابت راه تصادفی مطرح نمودند.این رهیافت مشکلاتی چند دارد. یک مسأله این که، واضح نیست که چند مرحله باید انجام داد تا توزیع متوازن راتقریب زد. مسأله ی دیگر این که ، راه تصادفی خاصی را که ایشان مطرح می کننند، نمی توان مستقیماً پیاده سازی کرد ، بلکه این مسأله را می توان با استفاده از یک راه تصادفی دیگر غیر از آنچه ایشان در مقاله ی خود عرضه کرده اند حل کرد [Henzinger et al. ۰۰] .
بریوسف و همکارانش [Bar-yossef st al.۰۰]گراف وب را به یک گراف غیر جهت دار همبند و منظم تبدیل کردند. توازن یک راه تصادفی بر این گراف ، توزیع یکنواخت است . باز اینجا نیز واضح نیست که چند مرحله برای این راه لازم است .البته مسأله ی مهمتر این است که روش قابل اعتمادی برای تبدیل گراف وب به یک گراف غیر جهت دار در دست نیست . بریوسف و همکارانش درخواست یالهای داخلی یک صفحه معین را از موتورهای جست وجوی مختلف به منظور نمونه گیری همه ی یالهای مجاور یک صفحه ی معین مطرح نمودند. البته اغلب فقط یک زیر مجموعه از همه ی یالهای داخلی را بدین طریق می توان پیدا کرد .
عاقبت ، راسمه ویچین تونگ و همکاران [Rusmevichientong et al.] رهیافت هنتسینگر [Henzinger et al.] را اصلاح کردند تا روشی به دست آید که درآن تا حدی نمونه گیری یکنواخت حاصل شود.در عمل برآن باوریم که رهیافت ایشان خوب کار نمی کند،چرا که کثرتی از میزبانها در وب هستند که از درون این میزبان پیوند خورده اند ، اما اندکی از پیوندها این میزبان را رها می کنند.اگر راه تصادفی در [Rusmevichientong et al. ۰۱] به چنین میزبانی برخوردکند، شانس زیادی دارد که بخش عظیمی از گره ها از همین میزبان باشند، یعنی این که این نمونه نایکنواخت خواهد بود .
● مدل سازی گراف وب
به محض این که پژوهشگران وب مشاهده ی خصوصیت های گراف وب را آغاز کردند ، کوشیدند تا مدلی از گراف وب بسازند ( [Kleinberg et al. ۹۹] را بنگرید).به نظر می رسد راههای تصادفی بر گراف وب سریعاً همگرا شوند.به علاوه وقتی به پیوند های بین وبگاهها می نگریم ، این پیوندهاکاملاً تصادفی به نظر می رسد .بنا براین کوشش برای مدل سازی وب به عنوان گراف تصادفی مرحله ای بدیهی بوده است. این امر به مدل‏ِ گراف روگرفتِ copy graph کلاین برگ و همکاران [Kleinberg et al. ۹] و همه ی اصلاحیات آن منجر شد[Kumar et al. ۰۰, Pandurangan et al. ۰۲]
آن دسته از خصوصیات گراف وب که این مدلها می کوشند ثبت نمایند،توزیع درجه ی ورودی توانی است ، این واقعیت که عداد بزرگی از گروهک های کوچک و توزیع توانی صفحه-رتبه ای داریم .البته خاصیت خیلی مهمی از گراف وب هست که با هیچ یک از این گرافهای پیشین مدل نمی شود، یعنی این واقعیت که وب بیشتر یک ساختار دو سطحی است : هر صفحه ی وب متعلق به یک میزبان است و حدود ۷۵% این ابر پیوندها صفحه های همان یک میزبان را به هم پیوند می زنند[bharat et al. ۰۱] . یالهای بین گره های موجود در یک میزبان ساختار معتنابهی دارند : مثلاً هر صفحه روی یک میزبان می تواند به همان صورت انحصاری copyright form یا صفحه ی اصلی میزبان اشاره کند. حسب آخرین معلومات ، تا کنون مدلی ارائه نشده است که این ساختار دوسطحی را به اضافه ی سایر خصوصیات فهرست شده ی فوق ، مدل سازی کند. از این گذشته گراف میزبانی را که از طریق ادغام همه ی گره های آن میزبان به یک گره ایجاد شده است در نظر بگیرید . گراف حاصل نیز یک توزیع توانی ، با درجه ی ورودی و درجه ی خروجی دارد [Bhrat et al. ۰۱] . ضمناً هیچ مدل گراف تصادفی نیست که توزیع های توانی صفحات را و سطح میزبان را مدل سازی کند.
خلاصه اینکه ،‌مسأله ی باز ،‌ایجاد یک مدل گراف تصادفی است که رفتار گراف وب را بر صفحه ها و هم بر سطح میزبان مدل سازی کند.
● میزبانهای دوگان
موتورهای جست و جوی وب می کوشند تا از داشتن صفحه های دوگان و تقریباً دوگان در مجموعه خود پرهز نمایند، چراکه این صفحه ها زمانی را که می باید صرف افزودن محتوای مفید به آن مجموعه شود، می افزایند . به اضافه صفحه های دوگان و تقریباً دوگان در مجموعه ای ازصفحات دنبال گشته به خوبی مطالعه شده است [Brin et al. ۹۵ Broder ۹۷] . ضمناً تحقیقاتی نیز در زمینه ی تعیین فهرست های درختی دوگان موسوم به آینه ها mirrors صورت گرفته است [Bharat and Broder ۹,Cho et al. ۰۰] . در حالی که یافتنِ آینه mirror detection ‌ و یافتن تک صفحه individual-page detection می کوشند حل کاملی از مسأله ی صفحه های دوگان ارائه کنند ، یک گونه ی ساده تر می تواند در حین اینکه به منابع محاسباتی کمتری نیاز داشته باشد ، سود بیشتری حاصل کند. این مسأله ی ساده تر یافتن میزبان دوگان duplicate host detection نام دارد : یافتن دو میزبان که صفحه به صحه یکسان باشند . میزبانهای دوگان ( دومیزبانها duphosts ) بزرگترین منبع منفرد صفحه های دوگان بر روی وب هستند، پس حل مسأله ی میزبانهای دوگان به بهبود مهمی می رسد .
مسأله ی یافتن میزبانهای دوگان آسانتر از یافتن آینه است ، زیرا URL های بین دومیزبانها تنها در اجزاء نام میزبان تفاوت دارند.مضافاً ، صفحه های روی میزبانها دقیقاً یکسان هستند بدین معنی که این الگوریم نیاز به صورت بندی مجدد reformatting ندارد.بالاخره اینکه، مجموعه ی صفحه های روی میزبان نخست ، با مجموعه ی صفحه های روی میزبان دوم یکسان است . نخستین مجموعه ی رهیافتهای مسأله ی دومیزبانها توسط بهارا و همکارانش [Bharat et al. ۰۰] مورد مطالعه قرار گرفت ، اما میزان خطای الگوریتم آنها را احتمالاً می توان ( هم برا ی خطای اضافی و هم برای خطای نقصانی) کاهش داد .البته رهیافت کلی ایشان ارزشمند به نظر می رسد: هر میزبان را توسط یک ترسیم sketch ارائه کنید . مثلاً ترسیم می تواند درواقع زیر مجموعه ای از URL های روی میزبان یا ابر پیوندهای اشاره کننده به صفحه های روی میزبان باشد . آنگاه برای مقایسه ی میزبانها از این ترسیم بهره بگیرید . البته پرسشهای سخت چنین اند : چه ترسیمی را برگزینیم و چگونه از مقایسه ی همه ی جفت های میزبان دوری گزینیم؟ چون میلیونه میزبان متفاوت وجود دارند ، واضح است که مقایسه ی همه ی این جفت ها امکان پذیر نیست . ترسیمهای بهارات و همکارانش [Bharat et al.۰۰] صرفاً بر رشته ها ی URL ها و ساختمان ابر پیوند مبتنی است .
● جریانهای داده ها
ثبت پرس و جو های یک موتور جست وجو همه ی پرس وجوهای ارائه شده به آن موتور جست و جو را شامل است . جست و جوهای بسیاری به کندی در طی زمان تغییر می کنند . البته بیشترین افزایش یا کاهش جست و جوها از یک بازه ی زمانی تا بازه ی زمانی دیگر ، گرایش ها و سو گیری علایق کاربران را می نمایاند. ما اینها را تارک دار ها top gainers و تارک بازها top losers می نامیم . به دلیل اینکه تعداد پرس و جو ها بسیار زیاد است ، تارک دارها و تارک باز ها را باید با ایجاد یک گذر pass از ثبت های پرس و جو ها query logs محاسبه نمود .این امر به مسأله ی زیر در خصوص جریان داده ها منجر می شود : اگر دودنباله از اشیاء داده شده باشند ،‌آن اقلامی را بیابید که قدرمطلق آن وقتی که یک دنباله را با دیگری فقط در یک بار خواندن مقایسه می کنید، از بقیه بیشتر کاهش یا افزایش دارد . چاریکار و همکارانش [Charicar et al. ۰۲] یک الگوریتمِ ۲-گذر ۲-pass برای این مسأله ارائه داده ا ند. مسأله ی جالب دیگر این است که برای همه ی اقلام فوق یک بسامد frequency خاصی بیابیم که افزایش نسبی آن( یعنی :‌افزایش آنها بخش بر بسامد آنها در دنباله ی نخست ) بیشترین مقدار باشد.
● زیرگرافهای دوبخشی چگال
وب چنانکه کومار [Kumar et al.۹۹]نشان داده است ، بسیاری از زیرگرافهای دوبخشی جهت دار همبند چگال را شامل است ، چراکه اجتماعات سایبر cyber-communities اغلب چنین ساختار همبندی دارند.گره های مبدأ soure nodes در چنین زیرگرافی ،« هاب »ها hubs یا گره های هادی ِ directory nodes موضوع هستند .همچنین کومار و همکارانش الگوریتمی برای یافتن زیرگرافهای دوبخشی کامل کوچک که آن را هسته core نامید اند ، ارائه و پیاده سازی کرده اند . ایشان از یک رهیافت پایین به بالا (بالارو) استفاده کرده اند که از این واقعیت که هر هسته ی (i,i) ترکیبی از هسته های (i-۱,i-۱) است بهره می گیرد .البته هسته های ایشان نظر به دهها گره نسبتاً کوچک بودند.
به منظور ثب کامل این اجتماعات سایبر یافتن زیرگرافهای دوبخشی خیلی بزرگتر در میان صدها یا هزارها گره جالب خواهد بود. نیازی به تکمیل اینها نیست ،‌لکن باید چگال dence باشند، بدین معنی که باید دست کم بخش ثابتی از زیرگرافهای دوبخشی ِ کاملِ مرتبط را شامل شوند. آیا الگوریتمهای کارآمدی برای یافتن آنها وجود دارد ؟ و آیا این الگوریتمها را می توان به نحو کارآمدی پیاده سازی کرد اگر که فقط بخش کوچکی از این گراف در حافظه ی اصلی بگنجد؟
● افراز بردار ویژه ای ِ گرافهای جهت دار
داناث و هافمن [ Donath and Hoffman ۷۳] بهره گیری از بردارهای ویژه را به منظور افراز گراف غیر جهت دار به روشی متوازن balanced ارائه نمودند.از آن زمان کار زیادی در زمینه ی رهیافتهای طیفی spectral برای افراز گراف صورت گرفته است. برای ملاحظه ای عالی در این زمینه چونگ را بنگرید [chung] .شای و ملک [Shi and Malik ۰۰] نشان دادند که بردارهای ویژه ی ماتریسهای مختلفِ بنا شده بر ماتریس مجاورت ِ یک گراف ، به انواع مختلفی از برشهای متوازن در گراف مربوط است . فرض کنید W ماتریس مجاورت ِگرافِ غیر جهت دار ِ (V,E) با گره های ۱,۲,.. , n باشد و فرض کنید D یک ماتریس قطری باشد که برای آن di = deg(i) . فرض نمائید A و B مجموعه هایی از گره ها و E(A,B) مجموعه ی یالهای (a,b) باشد که .
▪ وابستگیِ متوسطِ average association یک مجموعه ی ِ A ، است.
▪ برش متوسط average cut یک مجموعه ی ِ A ، است.
▪ برش نرمال average cut یک مجموعه ی ِ A ، است.
شای و ملک نشان دادند که : دومین بردار ویژه ی بزرگ ِ W به مجموعه ای مربوط است که وابستگی متوسط average association را بیشینه می کند.دومین بردار ویژه ی کوچک W – D به مجموعه ای مربوط است که برش متوسط average cut را کمینه می کند، و دومین بردار ویژه ی کوچک مسأله ی تعمیم یافته ی بردار ویژه ، یعنی : تقریبی از کوچکترین برش نرمال به دست می دهد . این نتیجه ها برای گراف غیر جهت دار برقرارند ، اما گراف وب گرافی جهت دار است . بنابر این ، درک چگونگی ارتباط نتایج فوق برای گراف گرافهای جهت دار جالب خواهد بود . اینکه آیا بردارهای ویژه ی ماتریسهای نظیر از گرافهای جهت دار نیز با تجزیه های متوازن گراف جهت دار مرتبطند، ممکن است که این امر به یک زیرگراف خاص-موضوعِ topic-specific آن آن منجر شود. یکی از نخستین گامها را در این جهت گیبسُن و همکارانش [Gibson et al ۹۸] برداشتند.آنها از بردار ویژه ی ماتریس و ماتریس که A ماتریس مجاورت یک زیرگراف خاص-موضوع ِ آن است ،و برای تجزیه ی زیرگرافهای خاص-موضوع بهره گرفتند. ایشان حکایت گونه نشان دادند که بردار ویژه ی اصلی principal و چند بردار ویژه ی غیر اصلی فوقانی top ، گرافهای موضوعی را به چند اجتماعِ ابرپیوندشده hyperlinked communities یعنی خوشه های clusters صفحه های همان زیرموضوع subtopic تجزیه می کنند.

وبگردی
(ویدئو) پرواز تماشاگران ایرانی از سن پترزبورگ به کازان
(ویدئو) پرواز تماشاگران ایرانی از سن پترزبورگ به کازان - به گزارش ورزش سه، هواداران تیم ملی ایران در جام جهانی روسیه برای حمایت از تیم کشورمان مقابل اسپانیا به شهر کازان رسیدند.
سرلشگر فیروزآبادی و ویلای 10هزار متری لواسان !
سرلشگر فیروزآبادی و ویلای 10هزار متری لواسان ! - لازم است ذکر شود جنبش عدالتخواه دانشجویی در صورت ادامه تعلل دستگاه‌های مربوطه در تخلیه ملک بیت‌المال، حق اقدامات انقلابی را برای اجبار فرد نامبرده به تخلیه ویلای لواسان، برای خود محفوظ می‌داند.
فیلم | مشکل مقبولیت و مشروعیت در کشور
فیلم | مشکل مقبولیت و مشروعیت در کشور - دکتر حمید ابوطالبی مشاور سیاسی رئیس جمهوری معتقد است که ما یک بار برای همیشه باید مشکل مشروعیت و مقبولیت را در کشور حل کنیم. این درست نیست که بخشی از نظام هم مشروع باشد هم مقبول اما بخش دیگری که از دل همین نظام در آمده است فقط مقبول باشد.
ماجرای تجاوز به 41 دختر از زبان امام جمعه ایرانشهر
ماجرای تجاوز به 41 دختر از زبان امام جمعه ایرانشهر - امام جمعه اهل سنت ایرانشهر : در ماه رمضان به ۴۱ دختر تجاوز شده که از این میان فقط ۳ دختر شکایت کرده اند.
فیلم مهران مدیری در برنامه خندوانه
فیلم مهران مدیری در برنامه خندوانه - برنامه کامل خندوانه با حضور مهران مدیری مهمان ویژه برنامه عید فطر برنامه خندوانه بود و این قسمت از مجموعه خندوانه را خاص کرد.
ویدئو / لطفاً در این مکان اعتراض کنید!
ویدئو / لطفاً در این مکان اعتراض کنید! - بر این اساس، ورزشگاه‌های دستگردی، تختی، معتمدی، آزادی، شیرودی، بوستان‌های گفت‌وگو، طالقانی، ولایت، پردیسان، هنرمندان، پارک شهر و ضلع شمالی ساختمان مجلس شورای اسلامی به عنوان محل‌های مناسب تجمع در تهران تعیین شده‌اند و از این پس معترضان می‌توانند در این محل‌ها تجمع کنند.
انتشار عکس دلخراش حمید بقایی
انتشار عکس دلخراش حمید بقایی - مشاور رسانه‌ای احمدی نژاد دیشب با انتشار عکسی دلخراش از وضعیت جسمی «حمید بقایی» از بازگشت این مجرم پرونده‌ی مالی آن دولت به زندان اوین خبر داد.
سبک عجیب شوی لباس در عربستان حاشیه ساز شد!
سبک عجیب شوی لباس در عربستان حاشیه ساز شد! - در پی برگزاری نمایش مد لباس زنان به سبکی عجیب در عربستان، سر و صدای بسیاری در رسانه ها به راه افتاد. ماجرا از این قرار بود که لباسها بدون مانکن و مانند اشباح در حال پرواز با استفاده از پهباد نمایش داده شدند.
ابداع مکتب «سیاست ورزی چرخشی» به نام ولایتی
ابداع مکتب «سیاست ورزی چرخشی» به نام ولایتی - علی اکبر ولایتی، مرد 37 شغله ای که به جز حوزه دیپلماسی، سالیانیست که کارشناس ادبی، فرهنگی، تاریخی، عرفانی و ... تلویزیون نیز هست، و هر سال دهها جلد کتاب به نام او منتشر می شود. همه ی این سوابق معششع یک سو و چرخش مادام سیاسی او در حوزه های مختلف، در سوی دیگر، کار را به جایی رسانیده که ولایتی را با ابداع مکتب «سیاست ورزی چرخشی» نیز می شناسند! ولایتی در تازه ترین تغییر مواضع خود این بار برجام را که روزگاری…
صحبت های تکان دهنده مادر یکی از دانش آموزان تجاوز شده
صحبت های تکان دهنده مادر یکی از دانش آموزان تجاوز شده - در این ویدئو صحبت های تکان دهنده مادر یکی از دانش آموزان تجاوز شده توسط معلم مدرسه را مشاهده می کنید.
افشاگری پوری بنایی درباره واقعیتی تلخ از ناصر ملک‌مطیعی
افشاگری پوری بنایی درباره واقعیتی تلخ از ناصر ملک‌مطیعی - پوری بنایی به عیادت پناهی رفت و دیدارش با مرحوم ناصر ملک‌مطیعی پس از پخش نشدن برنامه‌هایش از تلویزیون تعریف کرد.
(ویدئو) آزار جنسی گروهی دانش آموزان در مدرسه‌ای در غرب تهران!
(ویدئو) آزار جنسی گروهی دانش آموزان در مدرسه‌ای در غرب تهران! - ماجرای تکان دهنده اذیت و آزار گروهی دانش آموزان یک دبیرستان پسرانه در غرب تهران وارد فصل تازه‌ای شد.
آزاده نامداری هم گزارشگر فوتبال شد!
آزاده نامداری هم گزارشگر فوتبال شد! - در ادامه حضور چهره های شناخته شده در کمپین "خانم گزارشگر"، این بار آزاده نامداری مجری تلویزیون تلویزیون اقدام به گزارش فوتبال کرد. او برای این کار بازی خاطره انگیز ایران - استرالیا در مقدماتی جام جهانی 98 فرانسه را انتخاب کرده است که گزارش ضعیف او با انتقادات فراوانی مواجه شده است، تا حدی که وبسایت مربوط به این کمپین ویدئوی گزارش این او را از سایت حذف کرد.
عکسی عجیب و جنجالی از سید ابراهیم رئیسی
عکسی عجیب و جنجالی از سید ابراهیم رئیسی - عکسی از حضور سید ابراهیم رئیسی در مراسمی ویژه منتشر شده است که گفته می شود متعلق به کنفرانس افق نو در مشهد بوده است. در این عکس حرکات عجیب خانمی با لباس های قرمز، چفیه بر گردن و پرچم در دست در مقابل ابراهیم رییسی به چشم می خورد که توجه کاربران بسیاری را در شبکه های اجتماعی جلب کرده است!