Chipmakers het vinden van nieuwe manieren om vooruit te gaan

0
5

Nul

Chip ontwerpers staan voor een lastige taak. Het instrument dat ze hebben gebruikt om dingen te maken die kleiner, sneller en goedkoper, beter bekend als de Wet van Moore, is in toenemende mate ineffectief. Op hetzelfde moment, zijn de nieuwe toepassingen zoals diep leren vraagt een meer krachtige en efficiënte hardware.

Het is nu duidelijk dat de schalen voor algemene doeleinden Cpu ‘s alleen zal niet voldoende zijn om te voldoen aan de prestaties per watt doelstellingen van de toekomstige toepassingen, en veel van het zware werk wordt overgedragen naar versnellers zoals Gpu ‘s, fpga’ s, dsp ‘ s en zelfs op maat gemaakte ASICs zoals Google TPU. De vangst is dat deze complexe heterogene systemen zijn moeilijk te ontwerpen, te produceren en het programma. Een van de belangrijkste thema ‘ s van de recente Linley Processor Conferentie was hoe de industrie speelt in op deze uitdaging.

“Architecten vandaag de dag worden geconfronteerd met een enorme, bijna onoverkomelijk probleem,” zei Anush Mohandass, een marketing vice president bij NetSpeed Systemen. “Je moet Cpu’ s, moet u Gpu ‘ s, moet u de visie processors, en al deze nodig heeft om perfect samen te werken.”

Op de conferentie, NetSpeedeen particuliere onderneming die is gespecialiseerd in de schaalbare, samenhangend netwerk-op-chip technologie die wordt gebruikt om lijm de stukken van een heterogene processors –aangekondigd Turing, een machine learning algoritme optimaliseert het chip-designs voor processors, gericht op de automotive, cloud computing, mobile en het Internet der Dingen. Mohandass gesproken over de wijze waarop het systeem komt vaak met “niet-intuïtieve aanbevelingen” te voldoen aan de ontwerp-doelstellingen niet alleen voor kracht, prestaties en omgeving, maar ook de functionele veiligheidseisen die essentieel zijn in de automobiel-en industriële sectoren.

ARM is goed gepositioneerd om te verlichten van deze overgang, want het levert veel van de technologie in mobiele processors, die reeds in functie tot op zekere hoogte als heterogene processors. De laatste DynamIQ cluster technologie is ontworpen om op te schalen naar een veel breder ontwerp spectrum” dat kan voldoen aan de behoeften van nieuwe toepassingen van embedded cloud servers. Elke DynamIQ Gedeelde Unit (DSU) kan een willekeurige combinatie van maximaal acht grote en kleine kernen, en een CPU kan tot 32 van deze DSU clusters, hoewel de praktische limiet is ongeveer 64 grote kernen. Het heeft ook een perifere poort voor lage latency, strak gekoppelde verbindingen met versnellers zoals dsp ‘ s of neurale netwerk motoren, en ondersteunt de industrie-standaard CCIX (cache-coherente interconnect) en PCI-Express-bus.

linley-arm.jpg

In zijn presentatie, Brian Jeff, een marketing director at ARM’, sprak over de betere prestaties van de Cortex-A75 en A55 CPU cores, flexibele cache en met elkaar verbindt, en de nieuwe machine learning functies, “We bouwden een product roadmap die is ontworpen om aan deze veranderende eisen, zelfs als we op onze CPU-prestaties omhoog en omhoog,” zei Jeff. Hij toonde voorbeelden van processors voor ADAS (geautomatiseerde rijden bijstand), een netwerk verwerking en high-density servers die combinatie van deze elementen.

Een 64-core A75 processor levert drie keer de prestaties van de huidige 32-core A72 server chip waardoor het concurreren met Intel silicium, naar ARM. “We denken dat We kunnen voldoen aan deze goed onder de 100 watt–en waarschijnlijk in de range van 50 watt–voor het berekenen van,” zei Jeff. In een aparte presentatie op ARM ‘ s growing system-level IP, David J. Koenen, senior product manager, zei de A75 duwde ze dichter bij de single-threaded prestaties van de Xeon E5. Maar in antwoord op een vraag, gaf hij toe dat hij ze kon het niet helemaal overeenkomen met Intel nog toevoegen dat er één of misschien twee Cortex generaties om te voldoen aan die doelstelling.

linley-qualcomm.jpg

Qualcomm komende Centriq 2400 is gebaseerd op een aangepaste ARMv8 ontwerp, ook wel bekend als Falkor, maar de 10nm processor met 48 kernen draait op meer dan 2 ghz zou moeten zorgen voor een goede indicatie van hoe goed de ARM van schaalbare prestaties. Op de Linley Processor Conferentie, Qualcomm senior director Barry Wolford bekendgemaakt nieuwe gegevens op de cache–512K gedeelde L2-cache voor elk van de 24 Falkor duplexen, voor een totaal van 12 MB, en een dozijn 5MB zwembaden van het laatste level cache voor een totaal van 60 MB L3–en een eigen, samenhangend ring bus. Wolford zei de Centriq 2400 leveren concurrerende single-threaded prestaties en nog steeds aan de hoge kern telt nodig is voor gevirtualiseerde omgevingen in de cloud datacenters.

AMD is een meer praktische benadering van het probleem van de kern telt in een tijd dat de Wet van Moore is uitgevoerd van stoom. In plaats van te proberen om te bouwen van een monolithische processor, de chipmaker nam vier 14nm Epyc sterven en verpakte ze met haar Oneindigheid Stof te maken van een 32-server core processor. Greg Shippen, een AMD-collega en chief architect, zei vraag naar meer kernen en grotere bandbreedte was het duwen het sterven maten voor Cpu ‘s en Gpu’ s dicht bij de fysieke grenzen van de lithografiemachines. Door het te splitsen in vier sterft, de totale oppervlakte verhoogd met 10% (omwille van het sterven-te sterven interconnect), maar de kosten gedaald met 40% omdat kleinere sterft hogere rendementen. Shippen toegegeven dat de multi-chip module (MCM) met aparte caches heeft een zekere impact op de prestaties met code die niet is geoptimaliseerd naar schaal over de knooppunten, maar hij zei dat de Coherente Infinity Stof minimaliseert de latency hit.

linley-amd.jpg

Deze “chiplets” aanpak lijkt te zijn het verkrijgen van stoom, niet alleen om de opbrengsten te verhogen en snijd kosten, maar ook om te mixen en matchen verschillende soorten van logica, geheugen en I/O–vervaardigd op de verschillende processen–in dezelfde MCM. DARPA heeft een programma om dit concept dat bekend staat als CHIPS (Common Heterogene Integratie en Intellectuele Eigendom te Hergebruiken Strategieën) en Intel is het ontwikkelen van een MCM combineert een Skylake Xeon-processor met een geïntegreerde Arria 10 FPGA, die is gepland voor de eerste helft van 2018. Intel ‘ s huidige oplossing is een PCI-Express-kaart, de Programmeerbare Versnelling Kaart, met een Arria 10, dat is gevalideerd voor Xeon servers. Intel ‘ s doel is het standaardiseren van de FPGA hardware en software zodat de code wordt uitgevoerd aan de overkant van de hele familie en over meerdere generaties.

“Je kunt nu naadloos overgaan van de ene FPGA naar de volgende zonder herschrijven van uw Verilog,” zei David Munday, een Intel software engineering manager. “Het betekent dat de versnelling is draagbaar–je kan op een discrete uitvoering en je kunt verplaatsen naar een geïntegreerde implementatie.”

IBM en de OpenCAPI Consortium zijn het duwen van hun eigen oplossing voor het bevestigen van accelerators een host processor aan de vraag te voldoen voor hogere prestaties en grotere geheugen bandbreedte in hyperscale datacenters, high-performance computing en diep leren. “Om de latency en bandbreedte kenmerken, we moeten echt een nieuwe interface en een nieuwe technologie,” zei Jeff Stuecheli, een IBM Power-hardware architect.

CAPI is begonnen als een alternatief voor PCIe-voor het bevestigen van co-processors, maar de focus is uitgebreid en de bus ondersteunt nu standaard geheugen, opslag-klasse geheugen, en high-performance I/O, zoals netwerk-en storage controllers. Stuecheli zei dat het consortium met opzet plaats de meeste van de complexiteit in de host-controller, dus het zal gemakkelijk zijn voor heterogene systemen ontwerpers te bevestigen op ieder apparaat. Op de conferentie, IBM werd met een 300mm wafer met Power9 processors, die nadert commerciële release (Oak Ridge National Laboratory en het Lawrence Livermore National Laboratory hebben al een aantal zendingen voor toekomstige supercomputers).

Heterogene systemen zijn niet alleen stoer om te bouwen, ze zijn ook een uitdaging voor het optimaliseren en het programma. UltraSoC is een IP-leverancier die het verkoopt “slimme modules” om te debuggen en monitoren van het gehele SoC (ARM, MIPS en anderen) om problemen met de prestaties van de CPU, geheugen bandbreedte, impasses en beschadiging van gegevens zonder impact op de prestaties van het systeem. En Silexica heeft een SLX compiler dat de bestaande code en optimaliseer het op de heterogene hardware voor de auto-industrie, lucht-en ruimtevaart en industriële en 5G draadloze basisstations.

Brute-force-schalen van de Cpu ‘ s is niet van plan om ons te brengen waar we heen moeten, maar de industrie zal blijven komen met nieuwe manieren om op te schalen kracht, prestaties om te voldoen aan de behoeften van de opkomende toepassingen. De sleutel afhalen bij de Linley Processor Conferentie is dat deze meer complexe en genuanceerde benadering vereist nieuwe technologie te ontwerpen, te verbinden, te produceren en programmeren van de heterogene systemen.

0