Tencent Cloud недавно выпустила обновленную версию Xingmai Network 2.0, призванную повысить эффективность обучения крупных моделей. В предыдущей версии время синхронизации результатов расчетов больших моделей составляло более 50%, что приводило к низкой эффективности. Новая версия Xingmai Network 2.0 была обновлена во многих аспектах:
1. Поддерживает сеть на 100 000 карт в одном кластере, что позволяет удвоить масштаб, повысить эффективность сетевой связи на 60 %, повысить эффективность обучения больших моделей на 20 % и сократить время обнаружения неисправностей с дней до минут.
2. Коммутаторы, оптические модули, сетевые карты и другое сетевое оборудование собственной разработки модернизируются, чтобы сделать инфраструктуру более надежной и поддерживать единый кластер с масштабом более 100 000 графических карт.
3. На сетевой карте развернут новый протокол связи TiTa2.0, а алгоритм перегрузки обновлен до алгоритма активного контроля перегрузки. Эффективность связи увеличена на 30%, а эффективность обучения большой модели увеличена на 10%.
4. Высокопроизводительная библиотека коллективной связи TCCL2.0 использует гетерогенную параллельную связь NVLINK+NET для реализации параллельной передачи данных. Она также имеет адаптивный алгоритм Auto-Tune Network Expert, который повышает производительность связи на 30% и эффективность обучения больших моделей. 10%.
5. Недавно добавленная платформа моделирования Lingjing с эксклюзивной технологией Tencent позволяет полностью контролировать сеть кластера, точно определять проблемы узлов графического процессора и сокращать время обнаружения ошибок обучения на уровне 10 000 ка с дней до минут.
Благодаря этим обновлениям эффективность связи сети Синмай была увеличена на 60%, эффективность обучения большой модели увеличена на 20%, а также повышена точность определения места неисправности. Эти улучшения помогут повысить эффективность и производительность обучения больших моделей, позволяя более полно использовать дорогостоящие ресурсы графического процессора.