به گزارش دیوانگاه ،این توئیت حیرتآورمشخص میکند او که خود را متخصص هوش مصنوعی معرفی میکند،تفاوت بین ثبتنام و کامنت گذاشتن را نمیداند .زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنتها صرفاً یعنی ۴ میلیون نفر کامنت گذاشتهاند، نه آنکه ثبتنام کردهاند. هرچند نیازی به پاسخ علمی نیست، اما به احترام مخاطب، پاسخ را به صورت علمی ارائه میدهیم.
♦️بررسیهای فنی نشان میدهد که این استدلال دچار#چندینخطای بنیادی در حوزه مهندسی نرمافزار و تحلیل داده است:۱. خلط مبحث میان «جدول کامنتها» و «جدول کاربران»۲. نادیده گرفتن ماهیت فنی APIهای عمومی و محدودیت نمایش (Pagination)۳. استناد به آدرسی (Endpoint) که در حال حاضر از دسترس خارج است و امکان بازتولید مستقل ادعا را سلب میکند.♦️دلیل اول: تفکیک موجودیتها (Entity Separation)در طراحی پایگاه داده (Database Design)، اطلاعات کاربران در یک جدول و کامنتهای آنها در جدولی دیگر ذخیره میشود. هر کامنت دارای یک user_id است.وجود ۴ میلیون شناسهی یکتا در جدول کامنتها، تنها ثابت میکند که ۴ میلیون نفر «کامنت گذاشتهاند».لزوماً همه کسانی که در یک پویش ثبتنام میکنند، اقدام به گذاشتن کامنت نمیکنند. بنابراین، آمار جدول کامنتها همواره زیرمجموعهای از آمار کل کاربران است و نمیتواند سقف کل ثبتنامیها را تعیین کند.♦️دلیل دوم: خطای صفحهبندی (Pagination) و کش (Caching)در سیستمهای با ترافیک بالا، فراخوانی دادهها از طریق دستوراتی مثل getComments هرگز کل دیتابیس را یکجا بر نمیگرداند.مکانیزم فنی: APIها معمولاً دادهها را در دستههای کوچک (مثلاً ۲۰ تایی) ارسال میکنند. شناسههایی که در یک فراخوانی ساده مشاهده میشوند، مربوط به آخرین فعالیتها یا دستهای خاص هستند.نتیجه: بدون پیمایش (Iteration) تمام صفحات API و استخراج کل دیتای یکتا، ادعای تعیین سقف عددی دیتابیس از نظر علمی فاقد اعتبار است.
♦️دلیل سوم: عدم امکان راستیآزمایی (Reproducibility)یکی از اصول فکتچکینگ، قابلیت بازتولید نتیجه است. در حال حاضر دستور ارائهشده (curl) خطای 404 Not Found یا 403 Forbidden بازمیگرداند.استناد به یک خروجی که دیگر وجود ندارد یا در لحظهای خاص ثبت شده، بدون داشتن مستندات کامل از معماری سمت سرور (Backend)، نمیتواند به عنوان یک سند قطعی برای رد یک آمار رسمی استفاده شود.♦️دلیل چهارم: شناسههای ترتیبی و شکافها (Gaps)ادعا شده که فواصل شناسهها نشاندهنده تعداد واقعی است. در سیستمهای توزیعشده (Distributed Systems)، شناسهها لزوماً پشت سر هم نیستند. حذف کاربران، تلاشهای ناموفق برای ثبتنام، یا استفاده از روشهای تخصیص شناسه به صورت دستهای (High-Low sequence)، باعث ایجاد شکاف در اعداد میشود که تخمین دقیق را از روی ظاهرِ اعداد غیرممکن میکند.
نتیجهگیری
استدلال شریفی زارچی بر پایه یک «خطای تعمیم» استوار است؛ یعنی تعمیم آمار یک بخش فرعی (کامنت) به کل سامانه (ثبتنام). از منظر مهندسی نرمافزار، تعداد موجودیتهای یک جدولِ مرتبط، نشاندهنده سقف موجودیتهای جدول اصلی نیست.
