فیلترینگ حبابی گوگل

سنجش «فیلترینگ حبابی»: چگونه گوگل بر آنچه کلیک می‌کنید، تأثیر می‌گذارد

Featured image

در طول سال‌ها، مشکل «فیلترینگ حبابی» گوگل به طور قابل توجهی مورد بحث و بررسی بوده است. به بیان ساده، فیلترینگ حبابی دستکاری نتایج جستجوی شما بر اساس داده‌های شخصی شماست. در عمل، این بدین معنی است که لینک‌ها به بالا و پایین منتقل می‌شوند یا به نتایج جستجوی شما اضافه می‌شوند که این امر در مجموع مستلزم فیلترینگ سایر نتایج جستجو است. این نتایح ویرایش شده به وسیله اطلاعات شخصی شما که در نزد گوگل موجود است (مانند سوابق جستجو، وب گردی و خریدهای شما)، اطلاع داده می‌شوند و بر اساس آنچه الگوریتم‌های گوگل تشخیص می‌دهند شما به احتمال زیاد بر روی آن کلیک می‌کنید، شما را در داخل حبابی قرار می‌دهد.

فیلترینگ حبابی به طور خاص در زمانی که مباحث سیاسی جستجو می‌شوند، آسیب می‌رساند. این بدین دلیل است که رأی دهنده‌های مردّد و پی جو برای انجام جستجوی اولیه در خصوص اطلاعات نامزدها و موضوعات در زمان بحرانی که آنها در حال نتیجه گیری در مورد این نامزدها هستند، به موتورهای جستجو متوسل می‌شوند. اگر آنها به دلیل فیلترینگ حبابی شخصی خود به اطلاعاتی دست پیدا کنند که متمایل به یک طرف باشد، آنگاه، این امر در مجموع می‌تواند تأثیر بسزائی بر نتایج سیاسی داشته باشد.

در سال 2012، بر اساس بررسی‌هایی که انجام دادیم، مشخص شد که احتمالاً فیلترینگ حبابی گوگل با وارد کردن ده‌ها میلیون لینک بیشتر به نفع اوباما نسبت به رامنی در آستانه انتخابات یاد شده تأثیر قابل توجهی بر انتخابات ریاست جمهوری سال 2012 آمریکا داشته است. تحقیقات ما باعث شد تا بررسی مستقل توسط مجله وال استریت جورنال (Wall Street Journal) انجام شود (محدودیت دسترسی). بر اساس بررسی که توسط مجله وال استریت جورنال انجام شد، مشخص شد که موتور جستجو اغلب نتایج جستجوی افرادی که اخیراً در مورد «اوباما» جستجو کرده‌اند، شخصی سازی می‌کند اما این کار را در مورد نتایج جستجوی افرادی که در مورد «رامنی» جستجو کرده‌اند، انجام نمی‌دهد.

در حال حاضر و بعد از انتخابات ریاست جمهوری سال 2016 آمریکا و سایر انتخابات اخیر، تمایل جدید و قابل قبولی به بررسی شیوه‌هایی که به صورت آنلاین می‌توانند مردم را به لحاظ سیاسی تحت تأثیر قرار دهند، وجود دارد. در این راستا، مطالعه دیگری را به منظور بررسی وضعیت مشکل فیلترینگ حبابی گوگل در سال 2018 انجام دادیم.

خلاصه‌ای از یافته‌ها

گوگل ادعا کرده است که اقداماتی را به منظور کاهش مشکل فیلترینگ حبابی خود انجام داده است اما تازه‌ترین تحقیقات ما حکایت از وجود داستان بسیار متفاوتی در این زمینه دارد. بر اساس مطالعه و بررسی افرادی که همزمان عبارت‌های جستجوی یکسانی را وارد می‌کنند، به نتایج ذیل دست یافتیم:

  1. اغلب شرکت کننده‌ها در این کار مطالعاتی شاهد نتایج جستجوی منحصربفرد برای خود بودند. وجود این تفاوت‌ها را نمی‌توان با تغییر در مکان، زمان، با وارد شدن در گوگل یا با تغییرات الگوریتم تشخیصی گوگل به زیرمجموعه کوچکی از کاربران توضیح داد.
  2. در صفحه نخست نتایج جستجو، گوگل لینک‌هایی را برای برخی شرکت کننده‌ها درج کرده بود که برای سایر شرکت کننده درج نکرده بود؛ حتی زمانی که کاربران از حساب گوگل خود خارج و در حالت وب گردی خصوصی بودند.
  3. نتایج در جعبه اطلاعات اخبار و ویدئوها نیز به طور قابل توجهی متفاوت بودند. علیرغم این که افراد به طور همزمان کار جستجو را انجام داده بودند، حتی بس از تعیین موقعیت مکانی با منابع متفاوت مواجه شده بودند.
  4. در حالت وب گردی خصوصی و خارج شدن از حساب گوگل، مصونیت بسیار اندکی در برابر فیلترینگ حبابی ایجاد می‌شود. این تاکتیک‌ها در عمل بر خلاف انتظار اغلب باعث ناشناس بود افراد نمی‌شود. در حقیقت، به سادگی نمی‌توان از جستجوی گوگل استفاده کرد و در عین حال، از مسئله فیلترینگ حبابی اجتناب کرد.

کسانی که علاقمند به دریافت جزییات بیشتر در این زمینه هستند، در ادامه جزییات را توضیح داده‌ایم و همچنین داده‌ها و کد اصلی را ارائه کرده‌ایم. امیدواریم که این کار باعث تشویق بیشتر افراد برای مطالعه و بررسی این موضوع مهم شود.

روش کار

ما از داوطلبان در آمریکا درخواست کردیم که عبارت‌های «کنترل اسلحه»، «مهاجرت» و «واکسیناسیون» را (به همین ترتیب) در ساعت 9 صبح (ET) روز یکشنبه مورخ 24 ژوئن 2018 جستجو کنند. آن‌ها این عبارت‌ها را ابتدا در حالت وب گردی خصوصی و خارج از حساب گوگل جستجو کردند و سپس، عبارت‌های مذکور را دوباره در حالت غیر خصوصی (یعنی حالت «عادی») جستجو کردند. 87 مجموعه کامل نتایج (76 مورد در رایانه رومیزی و 11 مورد در موبایل) را جمع آوری کردیم. توجه داشته باشید که ما بررسی خود را به ایالات متحده آمریکا محدود کردیم زیرا کشورهای مختلف از ایندکس‌های جستجوی مختلف برخوردار هستند.

در جریان آنالیز نتایج جستجو، تنها دامنه‌های سطح بالای سایت‌ها را بررسی کردیم و به عنوان مثال، هر دو آدرس www.cdc.gov/features/vaccines-travel و www.cdc.gov/vaccines/adults را صرفاً به صورت cdc.gov مورد بحث قرار دادیم.

یافته 1: اغلب افراد حتی در زمانی که خارج از حساب گوگل و در حالت وب گردی خصوصی بودند، شاهد نتایج منحصربفرد برای خود بودند.

به منظور شمارش انواع نتایج، ترتیب عناصر اصلی را ذکر کردیم: لینک‌های طبیعی (منظم)، جعبه اطلاعات اخبار (اخبار روز) و جعبه اطلاعات ویدئوها. تبلیغات، بخش‌های حاوی جستجوهای مرتبط و سایر جعبه‌های اطلاعات را نادیده گرفتیم. وجود اختلاف در اینها نیز مشهود بود اما ما آنها را در نظر نگرفتیم. مروری سریع بر ترتیب لینک‌ها: ممکن است تصور کنید که تا زمانی که لینک‌های یکسان برای کاربران نشان داده شوند، ترتیب آنها نسبتاًٌ فاقد اهمیت است اما این طور نیست. یک لینک مشخص نسبت به لینک قبل از خود صرفاً به اندازه نصف و نسبت به لینک بعدی دو برابر کلیک می‌خورد. به عبارت دیگر، ترتیب لینک‌ها بسیار مهم است زیرا افراد بر روی اولین لینک بسیار بیشتر از لینک دوم و لینک‌های بعدی کلیک می‌کنند. فهرست حجم تغییراتی که برای هر عبارت جستجو مشاهده کردیم، در ادامه ارائه شده است. برای این بخش از بررسی، نتایج جستجوی موبایل را حذف کردیم زیرا تعداد جعبه‌های اطلاعاتی که در موبایل و رایانه رومیزی نمایش داده می‌شوند، تفاوت قابل توجهی باهم دارند. به همین دلیل است که تعداد شرکت کننده‌ها به جای 87 نفر 76 نفر ذکر می‌شود. عنصر موقعیت مکانی را نیز کنترل کردیم (جزییات بیشتر در این مورد در ادامه ارائه می‌شود). حالت وب گردی خصوصی (و حالت خارج از حساب گوگل):

حالت عادی:

با عدم وجود فیلترینگ حبابی، انتظار می‌رود که تغییر بسیار اندک در صفحات نتیجه جستجو مشاهده شود- تقریباً همه افراد شاهد مجموعه واحدی از نتایج هستند. این چیزی نیست که ما به آن دست یافتیم. در عوض، اغلب افراد شاهد نتایج منحصربفرد برای خود بودند. در ضمن، ما شاهد تغییر یکسان در نتایج جستجو در حالت وب گردی خصوصی و خارج از حساب گوگل نسبت به حالت عادی بودیم. اکنون، انتظار می‌رود که به دلیل وجود دو عامل که آنها را کنترل کردیم، شاهد مقداری تغییر در نتیجه جستجو باشیم. اولاً، نتایج جستجو در گذر زمان مانند درج لینک‌های حساس به زمان می‌توانند تغییر کنند. ما با درخواست از همگان برای جستجوی همزمان این عامل را کنترل کردیم.

دوماً، نتایج جستجو می‌توانند بر اساس موقعیت مکانی مانند درج مقالات خبری محلی تغییر کنند. ما با بررسی دستی کلیه لینک‌ها به جهت وقوع این احتمال این عامل را کنترل کردیم و این کار را با مقایسه آنها با شهر و ایالت داوطلب انجام دادیم. ما شاهد تعداد بسیار اندکی لینک محلی برای عبارت کنترل اسلحه (1 لینک طبیعی، 1 لینک جعبه اطلاعات اخبار) و مهاجرت (0) بودیم؛ هر چند که تعداد لینک‌ها برای عبارت واکسیناسیون (15 لینک طبیعی، 4 لینک جعبه اطلاعات اخبار) بیشتر بود.

به منظور کنترل این لینک‌های محلی، کلیه این لینک‌ها را با پلیس هلدر (placeholder) یکسان (localdomain.com برای لینک‌های طبیعی و «local source» برای جعبه‌های اطلاعات) در کل آنالیز خود جایگزین کردیم. این تنظیمات به این معنی است که دو کاربر که نتایج جستجوی آنها صرفاً به واسطه دامنه متفاوت محلی در یک اسلات متفاوت بودند، متفاوت به حساب نمی‌آیند. جالب اینجاست که این تنظیمات تأثیر قابل توجهی بر تغییر کلی نداشته است.

دلیل دیگری که ممکن است شما انتظار وجود اندکی تغییر در نتایج داشته باشید، تشخیص الگوریتم جستجو است که در این مورد، شما شاهد نتایج اندکی متفاوت برای افراد مختلف هستید. در آن حالت، شما انتظار دارید که اغلب افراد شاهد نتایج یکسان باشند و تعداد اندکی از افراد شاهد تفاوت‌های اندک در نتایج باشند.

یافته 2: گوگل لینک‌هایی را برای برخی شرکت کننده‌ها درج کرده بود که آنها را برای برخی افراد درج نکرده بود.

نتایج جستجوی گوگل نوعاً دارای ده لینک طبیعی هستند. در حالی که ترتیب لینک‌های یاد شده واقعاً حائز اهمیت است (یعنی، لینک 1 به میزان 40 درصد، لینک 2 به میزان 20 درصد، لینک 3 به میزان 10 کلیک‌ها را دریافت می‌کند و به همین ترتیب ادامه می‌یابد)، ما همچنین می‌خواستیم بدانیم که چه تعداد دامنه مختلف نمایش داده می‌شود.

با عدم وجود فیلترینگ حبابی، این انتظار وجود دارد که تعداد کل دامنه‌ها حدود 10 مورد باشد. ما به طور قابل توجهی شاهد تعداد بیشتری بودیم. در حالت وب گردی خصوصی، خارج از حساب گوگل، و با جایگزین شدن دامنه‌های محلی با دامنه localdomain.com، تعداد کل دامنه‌های مختلف به شرح زیر می‌باشد:

همان طور که به طور وضوح در تصویر فوق ملاحظه می‌شود، برخی افراد نسبت به سایر شرکت کننده‌ها با مجموعه‌ای بسیار غیرعادی از نتایج مواجه شدند که این مسئله حاکی از این است که برخی دامنه‌ها توسط هیچ کس دیگر مشاهده نشده بودند. اگر شما به جای یکی از این افراد بودید، امکان نداشت متوجه شوید که چه چیزی را از دست داده‌اید.

یافته 3: ما شاهد تفاوت قابل توجه در نتایج در جعبه‌های اطلاعات اخبار و ویدئوها بودیم.

ما همچنین به دنبال بررسی تفاوت نتیجه در جعبه‌های اطلاعات اخبار (خبرهای روز) و ویدئوها بودیم. درضمن، ما شاهد تفاوت قابل توجه در این جعبه‌های اطلاعات بودیم؛ هر چند که تنها سه اسلات وجود دارند. باز هم، این‌ها برای حالت وب گردی خصوصی، خارج از حساب گوگل و با جایگزین شدن دامنه محلی با «منبع محلی» هستند.

جعبه اطلاعات اخبار:

جعبه اطلاعات ویدئو:

به عنوان یک مثال، جعبه اطلاعات ویدئو برای جستجوی عبارت «مهاجرت» شش نتیجه مختلف زیر را نشان می‌داد. در مورد نتایج جستجوی طبیعی، ترتیب در اینجا حائز اهمیت است زیرا اسلات های دوم و سوم تعداد کلیک‌های بسیار کمتری را دریافت می‌کنند.

به خاطر داشته باشید که ما از افراد خواسته بودیم که به طور همزمان کار جستجو را انجام دهند و ما همه لینک‌های محلی را تغییر دادیم تا یکسان باشند. بنابراین، وجود این تفاوت بر اساس زمان یا مکان توضیح داده نمی‌شود. و بار دیگر، برخی افراد واقعاً خارج از محدوده بودند. در حقیقت، برخی افراد جعبه‌های اطلاعات را هرگز مشاهده نکرده بودند.

یافته 4: حالت وب گردی خصوصی و خارج از حساب گوگل تقریباً فاقد حفاظت در برابر فیلترینگ حبابی بودند.

سرانجام، ما دیدیم که تفاوت در نتایج در حالت وب گردی خصوصی (که به حالت ناشناس نیز معروف است) و حالت خارج از حساب گوگل تا حدودی به اندازه حالت عادی است. اغلب افراد انتظار دارند که هر دو حالت خارج از حساب گوگل و حالت ناشناس باعث ناشناس بودن کاربر شوند. متأسفانه، این یک تصور غلط رایج است زیرا سایت‌ها از آدرس‌های IP و انگشت نگاری مرورگر به منظور شناسایی افرادی که خارج از حساب گوگل یا در حالت وب گردی خصوصی هستند، استفاده می‌کنند. اگر نتایج جستجو در این حالت‌ها ناشناخته‌تر می‌بود، آنگاه انتظار می‌رفت که نتایج حالت وب گردی خصوصی همه اشخاص مشابه باشند. البته این چیزی نبود که با آن مواجه شدیم. به منظور آزمایش دقیق‌تر این موضوع، نتایج طبیعی را گرفتیم و تبلیغات و جعبه‌های اطلاعات را از آنها حذف کردیم و:

  1. یک حرف به هر دامنه اختصاص دادیم (مثلاً، برای دامنه nytimes.com حرف A و برای دامنه wsj.com حرف B و غیره).
  2. یک رشته از حروف را برای نتایج هر شخص ایجاد کردیم؛ به عنوان مثال، ABDFJKMSL.
  3. این رشته‌ها را باهم مقایسه کردیم تا ببینیم که چقدر آنها به هم شبیه هستند.

به منظور انجام این مقایسه، تغییرات دامنه بین مجموعه‌های متفاوتی از نتایج جستجو را حساب کردیم و به این ترتیب، تفاوت‌ها به یک عدد کاهش یافت. به عنوان مثال، ABC->ACB یک تغییر است. (به لحاظ فنی، از یک حرف برای هر دامنه در هر نتیجه جستجو استفاده کردیم و فاصله ویرایش لون‌اشتاین (Damerau-Levenshtein) بین آنها را محاسبه کردیم.

کنترل اسلحه:

مهاجرت:

واکسیناسیون:

ما معمولاً از این سؤ تفاهم میشنویم که وب گردی حالت خصوصی باعث ناشناس ماندن ما در وب میشود، اما این تحقیق نشان میدهد که گوگل نتایج جستجو را بر مبنای حالت وب گردی شما نشان نمیدهد. مردم نباید با دیدن حالت هایی به اسم «incognito» حس کاذب امنیت پیدا کنند و فکر کنند که این حالت ها آنها را ناشناس نگاه میدارد.


منبع :‌ https://spreadprivacy.com/google-filter-bubble-study/