ข้ามไปยังเนื้อหา

ศาสตราจารย์ MIT ก้าวข้ามขีดจำกัดด้านการประมวลผลด้วยคลัสเตอร์ที่ใหญ่ที่สุดที่เคยมีมาในระบบคลาวด์สาธารณะ

ด้วยการใช้ Google Compute Engine เพื่อจัดการ L-Functions และ Modular Forms Database (LMFDB) แอนดรูว์ วี. ซัทเธอร์แลนด์ นักทฤษฎีตัวเลขงานประมวลผลและหัวหน้านักวิจัยของ MIT ทำลายสถิติการประมวลผลประสิทธิภาพสูงของตัวเอง ด้วยการไปถึง 580,000 คอร์

เมื่อเดินเข้าไปในชั้นเรียนปรัชญาคณิตศาสตร์ คุณจะได้ยินการพูดคุยเกี่ยวกับ “องค์ประกอบ” องค์ประกอบคืออะไรก็ตามที่คุณทำการคำนวณทางคณิตศาสตร์ได้ เช่น ตัวเลขหรือฟังก์ชัน หรือผลลัพธ์ของการคำนวณทางคณิตศาสตร์ เช่น เส้นโค้ง L-Functions และ Modular Forms Database (LMFDB) เป็นสมุดรวมโดยละเอียดขององค์ประกอบและความสัมพันธ์ระหว่างกัน LMFDB เป็นความร่วมมือระหว่างนักวิจัยนานาชาติ และได้รับคำแนะนำจากทีมระหว่างประเทศที่อยู่ในมหาวิทยาลัยต่างๆ ในยุโรปและอเมริกาเหนือ รวมถึง MIT

ภาพของการวิจัยทั้งหมดจะเปลี่ยนไปเมื่อได้รับคำตอบหลังจากถามคำถามในเวลาไม่กี่ชั่วโมงแทนที่จะเป็นหลายเดือน

Andrew V. Sutherland, นักทฤษฎีจำนวนการประมวลผลและนักวิทยาศาสตร์ด้านการวิจัยหลัก, MIT

การแชร์ข้อมูลระหว่างนักวิจัย

LMFDB ผลักดันวิทยาศาสตร์ให้ก้าวหน้าด้วยการทำให้การแชร์ข้อมูลเกี่ยวกับองค์ประกอบกับชุมชนทางวิทยาศาสตร์ วิทยาการคอมพิวเตอร์ และคณิตศาสตร์ทั่วโลกสำหรับนักวิจัยทำได้ง่ายขึ้น การคำนวณเพื่อสร้างองค์ประกอบบางอย่างก็ซับซ้อนมากจนมีเพียงคนไม่กี่คนบนโลกเท่านั้นที่รู้ว่าต้องคำนวณอย่างไร การคำนวณอื่นๆ ก็ใหญ่มาก จึงเป็นการดีที่สุดที่จะทำเพียงครั้งเดียวเนื่องจากต้องใช้เวลาและค่าใช้จ่ายมหาศาลในการคำนวณ

ทีมที่ใช้ LMFDB ต้องการบริการระบบคลาวด์ที่จัดการกับความต้องการของสภาพแวดล้อมพื้นที่เก็บข้อมูลซึ่งกำลังเติบโตขึ้นได้ เพื่อให้มองเห็นภาพ ต้องใช้เวลาประมวลผล 1,000 ปีเพื่อสร้างองค์ประกอบภายใน LMFDB นอกเหนือจากปัญหาใหญ่เรื่องพื้นที่เก็บข้อมูลแล้ว ยังมีปัญหาเรื่องการปรับขนาด LMFDB พร้อมใช้งานสำหรับทุกคนที่ lmfdb.org หมายความว่าโครงการต้องปรับขนาดเพื่อรองรับการค้นหานับไม่ถ้วนในแต่ละวัน สุดท้าย เนื่องจาก LMFDB เป็นโครงการที่ทำงานร่วมกัน ทีมจึงต้องการระบบที่คนในประเทศต่างๆ จะดูแลได้ง่าย

เน้นการวิจัย ไม่ใช่โครงสร้างพื้นฐาน

ทีม LMFDB เลือกดูโซลูชันระบบคลาวด์ต่างๆ และเลือก Google Cloud เนื่องจากประสิทธิภาพที่สูง ความสามารถในการปรับขนาดได้โดยอัตโนมัติ ความง่ายในการใช้งาน และความน่าเชื่อถือ

หนึ่งในนักวิจัยหลักที่มีส่วนร่วมใน LMFDB และกระบวนการตัดสินใจคือ แอนดรูว์ วี. ซัทเธอร์แลนด์ ศาสตราจารย์คณิตศาสตร์ นักทฤษฎีตัวเลขงานประมวลผล และหัวหน้านักวิจัยที่ MIT

"เราคือนักคณิตศาสตร์ที่ต้องการมุ่งเน้นการวิจัยของเรา และไม่ต้องการที่จะกังวลเรื่องความล้มเหลวของฮาร์ดแวร์หรือปัญหาการปรับขนาดเว็บไซต์" ซัทเธอร์แลนด์กล่าว

ซัทเธอร์แลนด์และคนอื่นๆ ในทีม LMFDB เลือกใช้ Google Compute Engine (GCE) และ Google Persistent Disk เพื่อโฮสต์เว็บเซิร์ฟเวอร์และสร้างมิเรอร์ฐานข้อมูล MongoDB เพื่อจัดเก็บข้อมูลออนไลน์ครึ่งเทระไบต์และข้อมูลที่เข้าถึงไม่บ่อยอีก 3 เทระไบต์ การกำหนดค่าแบบนี้ทำให้ LMFDB ปรับขนาดได้ตามต้องการ และให้ผลการคำนวณและองค์ประกอบทางคณิตศาสตร์ได้อย่างรวดเร็วเมื่อนักวิจัยต้องการ นอกจากนี้ LMFDB ยังใช้เครื่องมือต่างๆ ของ Google Cloud ที่ทำให้นักวิจัยที่อยู่ในที่ต่างๆ ทั่วโลกจัดการฐานข้อมูลแบบทำงานร่วมกันได้ง่ายดายยิ่งขึ้น เครื่องมือเหล่านี้รวมถึง Google Stackdriver, Google Cloud Console และ Google Cloud Load Balancing

ซัทเธอร์แลนด์มีตารางข้อมูลที่ซับซ้อนอย่างยิ่งที่ต้องการคำนวณและจัดเก็บใน LMFDB โดยเป็นตารางที่ใหญ่มากจนต้องการพลังการประมวลผลเกินกว่าขีดจำกัดของสิ่งที่เคยทำมาในระบบคลาวด์สาธารณะ ในการคำนวณ เขาเลือก GCE เพื่อประมวลผลระดับ 580,000 คอร์ด้วยเครื่องเสมือน Preemptible VM ซึ่งเป็นคลัสเตอร์ของคอมพิวเตอร์ประสิทธิภาพสูงที่ใหญ่ที่สุดที่มนุษย์รู้จักเท่าที่เคยทำงานในระบบคลาวด์สาธารณะ

การคำนวณได้ผลลัพธ์เป็นเส้นโค้งที่ต่างกัน 70,000 เส้น โดยแต่ละเส้นมีรายการข้อมูล LMFDB ของตัวเอง การค้นหาเส้นโค้งเพียงเส้นเดียวเป็นงานที่ยุ่งมากเกินไปซึ่งต้องการรอบการประมวลผลจำนวนมาก “มันเหมือนกับการหาเข็มในกองฟางสิบห้ามิติ” ซัทเธอร์แลนด์กล่าว

ก่อนหันมาใช้ GCE เพื่อทำการคำนวณ ซัทเธอร์แลนด์ทำงานบนคอมพิวเตอร์ 64 คอร์ของตัวเองซึ่งใช้เวลานานมาก ทางเลือกอื่นเพียงอย่างเดียวของเขาคือการขอเวลาประมวลผลในระบบคลัสเตอร์ของ MIT ซึ่งทำได้ยากและมีการกำหนดค่าซอฟต์แวร์แบบจำกัด ด้วย GCE เขาใช้จำนวนคอร์ได้มากเท่าที่ต้องการ ติดตั้งระบบปฏิบัติการ ไลบรารี และแอปพลิเคชันได้ตรงตามเป้าหมาย รวมทั้งอัปเดตสภาพแวดล้อมการทำงานได้ทุกเมื่อ

ด้วยความสามารถในการปรับขนาดที่ Google Cloud ให้กับ LMFDB ทุกคนตั้งแต่นักศึกษาไปจนถึงนักวิจัยที่มีประสบการณ์จึงค้นหาและเลือกดูเนื้อหาผ่านเว็บอินเทอร์เฟซได้อย่างง่ายดาย ตัวอย่างเช่น ซัทเธอร์แลนด์สอนในชั้นเรียนเกี่ยวกับสมการ Elliptic Curve และให้นักศึกษาใช้ LMFDB เพื่อทำการบ้าน

ประหยัดเงินเมื่อทำการคำนวณจำนวนมหาศาล

เมื่อคำนึงถึงข้อจำกัดด้านงบประมาณของนักวิจัยและสถาบันการศึกษาจำนวนมาก Google Cloud ทำให้พวกเขาทำการคำนวณจำนวนมหาศาลได้ในราคาที่เหมาะสม เครื่องเสมือนที่ยอมให้มีการขัดจังหวะชั่วคราว (Preemtible VM) ของ GCE ที่ซัทเธอร์แลนด์ใช้ทำให้เขาลดค่าใช้จ่ายในขณะทำการคำนวณที่ซับซ้อนที่สุดลงได้อย่างมาก อินสแตนซ์ที่มีฟีเจอร์ครบครันเหล่านี้มีค่าใช้จ่ายน้อยลงถึง 80 เปอร์เซ็นต์เมื่อเทียบกับแบบทั่วไปเนื่องจากทำให้หยุดชะงักโดย GCE ได้ การหยุดชะงักของการประมวลผลนี้ไม่มีผลกระทบต่อประสิทธิภาพมากนัก โดยเฉลี่ย อินสแตนซ์ของเขาเพียง 2-3 เปอร์เซ็นต์หยุดชะงักในแต่ละชั่วโมงของการประมวลผล และสคริปต์ก็จะสั่งให้เริ่มทำงานอีกครั้งโดยอัตโนมัติจนงานทั้งหมดเสร็จสิ้น จึงเป็นการเสียเวลาเพียงเล็กน้อย ด้วยการปล่อยให้มีการชะงักเล็กน้อยเหล่านี้ เขาจึงทำการคำนวณจำนวนมหาศาลได้ในราคาถูกและไม่มีความล่าช้าในทางปฏิบัติเลย

เรากำลังสร้างแผนที่คณิตศาสตร์ของศตวรรษที่ 21

Andrew V. Sutherland, นักทฤษฎีจำนวนการประมวลผลและนักวิทยาศาสตร์ด้านการวิจัยหลัก, MIT