تشريح حجز في ٦٠ ثانية
ماذا يحدث فعلياً بين "رنّة الهاتف" و"الحجز مؤكد"؟ جولة داخل مكالمة مباشرة مع هلا، ثانيةً بثانية.
نورة الراشد
قائدة الهندسة، آرا
يسألنا الناس كيف يعمل الذكاء الاصطناعي. الإجابة الصادقة: ليس في خطوة واحدة. هلا أوركسترا صغيرة من المكونات، منسّقة بحيث يختبر المتصل محادثة واحدة متواصلة. إليك ما يحدث خلال حجز نموذجي، مع قياس الزمن على الحائط.
٠٠:٠٠ — الرنين
تصل المكالمة إلى رقم خليجي محلي. طبقتنا للاتصالات (الأساسي: Twilio منطقة السعودية؛ الاحتياطي: شركات الاتصال المحلية) تلتقط المكالمة خلال ٤٠٠ مللي ثانية — أسرع من أن يسمع المتصل رنّة ثانية كاملة.
٠٠:٠١ — التحية
تفتتح هلا بتحية إقليمية تطابق ملف اللهجة الذي اختاره العمل. لعيادة أسنان سعودية بنبرة “ودّية”، تكون: “مرحبا، معك هلا من عيادة الفيصلية، كيف أقدر أساعدك؟”
هذه التحية ليست مُولَّدة فورياً. إنها مُخزَّنة، مما يوفّر ~٧٠٠ مللي ثانية والأهم أنه يسمح لنا بتقديمها بنبرة طبيعية من لحظة اتصال المكالمة.
٠٠:٠٤ — الاستماع
يبدأ المتصل بالكلام. نبثّ الصوت في مقاطع من ٢٠ مللي ثانية إلى طبقة تحويل الكلام إلى نص. تعود النصوص الجزئية كل ٣٠٠ مللي ثانية تقريباً. لسنا ننتظر الصمت لنبدأ التفكير — يحدث الاستنتاج بالتوازي مع الاستماع.
بعد حوالي ١٫٢ ثانية من انتهاء جملة المتصل، نحصل على نص واثق: “أبي أحجز موعد مع الدكتور، الأسبوع الجاي إذا ممكن”.
٠٠:٠٦ — الفهم
يذهب النص إلى طبقة الاستنتاج لدينا، التي لديها سياق العيادة الحالي محمّل في ملخص مُكثَّف بحوالي ٢٠٠٠ رمز: من هم الأطباء، وأنواع المواعيد، وقواعد المدة والفواصل، والتوفر الحالي لأربعة عشر يوماً قادماً، والمُوجِّه المخصص للعيادة.
يقرأ النموذج النية ويقرر ما الذي ينقص: نعرف أنهم يريدون الحجز؛ لا نعرف مع أي طبيب، أو أي نوع من المواعيد، أو هل هم مرضى جدد أم عائدون. كما أننا لا نعرف بعد أسماءهم أو أرقام هواتفهم.
٠٠:٠٧ — أول رد حقيقي
ترد هلا: “بالتأكيد، مع أي دكتور حاب تحجز؟ عندنا الدكتورة سارة يوم الأحد والاثنين، والدكتور أحمد يوم الثلاثاء والأربعاء.”
يستخدم توليد الصوت نموذجاً منخفض زمن الاستجابة ومضبوطاً خصيصاً للملف السعودي. أول بايت صوتي يخرج خلال ~٦٠٠ مللي ثانية من نهاية دور المتصل. يختبر المتصل هذا كاستجابة فورية.
٠٠:١٠–٠٠:٤٠ — المحادثة
الثلاثون ثانية التالية هي العمل الحقيقي. تسأل هلا عن:
- تفضيل الطبيب (الدكتورة سارة، صباح الأحد)
- نوع الموعد (فحص روتيني، ٣٠ دقيقة)
- حالة المريض (عائد، لذا نبحث عن الملف)
- الاسم (إن كان جديداً، نلتقطه؛ وإن كان عائداً، نؤكده)
- رقم التواصل (نستخدم معرف المتصل لكن نؤكده)
كل دور محادثة تحت ثانيتين من زمن الاستجابة. نُعيد التحقق من التوفر بعد كل قيد يُضيفه المتصل — إذا حُجِز الوقت المطلوب بواسطة متصل آخر خلال المحادثة، نعرض البدائل فوراً بدلاً من وعد بوقت لا نستطيع تقديمه.
٠٠:٤٧ — الكتابة
قبل أن تؤكد هلا شفوياً، نكتب الحجز في قاعدة البيانات بحجز مؤقت لثانيتين. إذا فشلت الكتابة (ومضة شبكية، انتهاك قيد)، نعتذر ونعرض المحاولة مرة أخرى. إذا نجحت، تؤكد هلا الوقت، وتُعيد قراءته، والأهم — تتوقف لتسمح للمتصل بالاعتراض قبل وضع علامة “نهائي” على الحجز.
٠٠:٥٨ — الوداع
“تم الحجز. موعدك مع الدكتورة سارة الأحد الجاي الساعة عشرة صباحاً. راح توصلك رسالة واتساب بالتأكيد. شكراً لاتصالك.”
الحجز مؤكد. قالب واتساب يُطلَق خلال ٤ ثوانٍ. موجز النشاط في لوحة التحكم يتحدث في الوقت الفعلي.
ما الذي يجعل هذا صعباً
الأجزاء الصعبة ليست تحويل الكلام إلى نص أو النص إلى كلام — تلك سلع قياسية. الأجزاء الصعبة هي:
- الحفاظ على طبيعية المحادثة عندما يقاطع المتصل، أو يغيّر رأيه، أو يسأل سؤالاً في منتصف الجملة
- التعامل مع الفشل بلطف حين لا يمكن إتمام الحجز (لا يوجد وقت، العيادة مغلقة، تعليق دفع على الحساب)
- عدم الهلوسة. موظفة استقبال تخترع طبيباً، أو وقتاً، أو سياسةً أسوأ من عدم وجود موظفة استقبال.
كل ما هو مرئي — الدفء، السرعة، الإيقاع الطبيعي — يستند إلى بنية تحتية مُصمَّمة حول مبدأ واحد: على الذكاء الاصطناعي ألّا يدّعي أبداً ما لا يستطيع التحقق منه. كل حجز تؤكده هلا هو حجز موجود في قاعدة البيانات. كل طبيب تذكره هو مزوّد حقيقي في قائمة العيادة.
هذا هو المعيار. هذا ما يصنع الفرق بين عرض مُبهر وموظفة استقبال يمكنك الوثوق بها على خط الهاتف.