– hoe meer data, hoe beter

Meer data verwerken in minder tijd en met minder hardware? Het kan. De Big Data Benchmark die onlangs werd uitgevoerd laat aan duidelijkheid niets te wensen over: Als het om Big Data gaat, biedt de software van Talend een aantal significante snelheidsvoordelen ten opzichte van de concurrentie.

Voor de benchmark werd de expertise van MCG Global Services, marktleider in informatiemanagement, ingezet om de prestaties van Talend Big Data Integration te vergelijken met de Informatica Big Data Edition. Drie cases stonden bij deze benchmark centraal.

 

Case 1: de invloed van websitebezoeken op de verkoop

Welke invloed hebben websitebezoeken op de verkoop? Hoeveel pagina’s bezoeken klanten voordat ze tot aankoop overgaan?

Bij deze case had Talend in 10 minuten een dataset samengesteld, terwijl Informatica hier 1 uur en 27 minuten voor nodig had. Talend was dus 9 keer zo snel.

 

Case 2: de invloed van coupons op de verkoop

Op welke manier beïnvloeden coupon-promotiecampagnes de verkoop? Bezoeken klanten die een couponreclame hebben gezien onze website en kopen ze meer of extra producten die ze anders, zonder coupon, niet gekocht zouden hebben?

Talend deed 15 minuten over het samenstellen van een dataset, tegenover 2 uur en 23 minuten door Informatica. Talend was hier 10 keer sneller.

 

Case 3: de invloed van productaanbevelingen

Wat is de invloed van productaanbevelingen op de verkoop? Zijn klanten geneigd extra producten te kopen op basis van deze aanbevelingen?

Voor het samenstellen van een dataset had Talend bij deze case 22 minuten nodig, terwijl Informatie er maar liefst 4 uur en 9 minuten over deed. Talend was dus 11 keer zo snel.

 

Hoe meer data, hoe beter Talend presteert

De voordelen van Talend ten opzichte van Informatica nemen toe naarmate de datavolumes toenemen. Hoe dat kan? Door gebruik te maken van de mogelijkheden van Apache Spark waarbij bewerkingen op data in het geheugen plaatsvinden, kan Talend datasets veel sneller integreren. Spark gebruikt namelijk snelle Remote Procedure Calls voor efficiënte afhandeling en uitvoering van opdrachten. Het Spark-framework maakt gebruik van een thread pool voor de uitvoering van de taken, in plaats van een pool van Java Virtual Machine-processen, wat zorgt voor een veel snellere afhandeling en uitvoering van opdrachten. Oplossingen voor Big Data zoals Talend die native code genereren voor het Spark-framework kunnen hierdoor taken in milliseconden uitvoeren, dit in tegenstelling tot oplossingen die geen Spark ondersteunen zoals de Informatica Big Data Edition die seconden of soms zelfs minuten nodig hebben voor dezelfde opdracht.