2 Star 2 Fork 8

王布衣/gox

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
aggregates.go 14.18 KB
一键复制 编辑 原始数据 按行查看 历史
王布衣 提交于 2023-06-03 06:07 . 调整vek目录为num
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702
package main
import (
. "github.com/mmcloughlin/avo/build"
. "github.com/mmcloughlin/avo/operand"
. "github.com/mmcloughlin/avo/reg"
)
func genSum_F64() {
TEXT("Sum_AVX2_F64", NOSPLIT, "func(x []float64) float64")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB0_1"))
CMPQ(RSI, Imm(16))
JAE(LabelRef("LBB0_4"))
VXORPD(X0, X0, X0)
XORL(EAX, EAX)
JMP(LabelRef("LBB0_11"))
Label("LBB0_1")
{
VXORPS(X0, X0, X0)
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB0_4")
{
MOVQ(RSI, RAX)
ANDQ(I32(-16), RAX)
LEAQ(Mem{Base: RAX}.Offset(-16), RCX)
MOVQ(RCX, R8)
SHRQ(Imm(4), R8)
ADDQ(Imm(1), R8)
TESTQ(RCX, RCX)
JE(LabelRef("LBB0_5"))
MOVQ(R8, RCX)
ANDQ(I32(-2), RCX)
VXORPD(X0, X0, X0)
XORL(EDX, EDX)
VXORPD(X1, X1, X1)
VXORPD(X2, X2, X2)
VXORPD(X3, X3, X3)
}
Label("LBB0_7")
{
VADDPD(Mem{Base: RDI}.Idx(RDX, 8), Y0, Y0)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(32), Y1, Y1)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(64), Y2, Y2)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(96), Y3, Y3)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(128), Y0, Y0)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(160), Y1, Y1)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(192), Y2, Y2)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(224), Y3, Y3)
ADDQ(Imm(32), RDX)
ADDQ(I32(-2), RCX)
JNE(LabelRef("LBB0_7"))
TESTB(Imm(1), R8B)
JE(LabelRef("LBB0_10"))
}
Label("LBB0_9")
{
VADDPD(Mem{Base: RDI}.Idx(RDX, 8), Y0, Y0)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(32), Y1, Y1)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(64), Y2, Y2)
VADDPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(96), Y3, Y3)
}
Label("LBB0_10")
{
VADDPD(Y3, Y1, Y1)
VADDPD(Y2, Y0, Y0)
VADDPD(Y1, Y0, Y0)
VEXTRACTF128(Imm(1), Y0, X1)
VADDPD(X1, X0, X0)
VPERMILPD(Imm(1), X0, X1)
VADDSD(X1, X0, X0)
CMPQ(RAX, RSI)
JE(LabelRef("LBB0_12"))
}
Label("LBB0_11")
{
VADDSD(Mem{Base: RDI}.Idx(RAX, 8), X0, X0)
ADDQ(Imm(1), RAX)
CMPQ(RSI, RAX)
JNE(LabelRef("LBB0_11"))
}
Label("LBB0_12")
{
VZEROUPPER()
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB0_5")
{
VXORPD(X0, X0, X0)
XORL(EDX, EDX)
VXORPD(X1, X1, X1)
VXORPD(X2, X2, X2)
VXORPD(X3, X3, X3)
TESTB(Imm(1), R8B)
JNE(LabelRef("LBB0_9"))
JMP(LabelRef("LBB0_10"))
}
}
func genSum_F32() {
TEXT("Sum_AVX2_F32", NOSPLIT, "func(x []float32) float32")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB1_1"))
CMPQ(RSI, Imm(32))
JAE(LabelRef("LBB1_4"))
VXORPS(X0, X0, X0)
XORL(EAX, EAX)
JMP(LabelRef("LBB1_11"))
Label("LBB1_1")
{
VXORPS(X0, X0, X0)
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB1_4")
{
MOVQ(RSI, RAX)
ANDQ(I32(-32), RAX)
LEAQ(Mem{Base: RAX}.Offset(-32), RCX)
MOVQ(RCX, R8)
SHRQ(Imm(5), R8)
ADDQ(Imm(1), R8)
TESTQ(RCX, RCX)
JE(LabelRef("LBB1_5"))
MOVQ(R8, RCX)
ANDQ(I32(-2), RCX)
VXORPS(X0, X0, X0)
XORL(EDX, EDX)
VXORPS(X1, X1, X1)
VXORPS(X2, X2, X2)
VXORPS(X3, X3, X3)
}
Label("LBB1_7")
{
VADDPS(Mem{Base: RDI}.Idx(RDX, 4), Y0, Y0)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(32), Y1, Y1)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(64), Y2, Y2)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(96), Y3, Y3)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(128), Y0, Y0)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(160), Y1, Y1)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(192), Y2, Y2)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(224), Y3, Y3)
ADDQ(Imm(64), RDX)
ADDQ(I32(-2), RCX)
JNE(LabelRef("LBB1_7"))
TESTB(Imm(1), R8B)
JE(LabelRef("LBB1_10"))
}
Label("LBB1_9")
{
VADDPS(Mem{Base: RDI}.Idx(RDX, 4), Y0, Y0)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(32), Y1, Y1)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(64), Y2, Y2)
VADDPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(96), Y3, Y3)
}
Label("LBB1_10")
{
VADDPS(Y3, Y1, Y1)
VADDPS(Y2, Y0, Y0)
VADDPS(Y1, Y0, Y0)
VEXTRACTF128(Imm(1), Y0, X1)
VADDPS(X1, X0, X0)
VPERMILPD(Imm(1), X0, X1)
VADDPS(X1, X0, X0)
VMOVSHDUP(X0, X1)
VADDSS(X1, X0, X0)
CMPQ(RAX, RSI)
JE(LabelRef("LBB1_12"))
}
Label("LBB1_11")
{
VADDSS(Mem{Base: RDI}.Idx(RAX, 4), X0, X0)
ADDQ(Imm(1), RAX)
CMPQ(RSI, RAX)
JNE(LabelRef("LBB1_11"))
}
Label("LBB1_12")
{
VZEROUPPER()
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB1_5")
{
VXORPS(X0, X0, X0)
XORL(EDX, EDX)
VXORPS(X1, X1, X1)
VXORPS(X2, X2, X2)
VXORPS(X3, X3, X3)
TESTB(Imm(1), R8B)
JNE(LabelRef("LBB1_9"))
JMP(LabelRef("LBB1_10"))
}
}
func genCumSum_F64() {
TEXT("CumSum_AVX2_F64", NOSPLIT, "func(x []float64)")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB2_8"))
LEAQ(Mem{Base: RSI}.Offset(-1), RCX)
MOVL(ESI, EAX)
ANDL(Imm(3), EAX)
CMPQ(RCX, Imm(3))
JAE(LabelRef("LBB2_3"))
VXORPD(X0, X0, X0)
XORL(ECX, ECX)
JMP(LabelRef("LBB2_5"))
Label("LBB2_3")
{
ANDQ(I32(-4), RSI)
VXORPD(X0, X0, X0)
XORL(ECX, ECX)
}
Label("LBB2_4")
{
VADDSD(Mem{Base: RDI}.Idx(RCX, 8), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8))
VADDSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(8), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(8))
VADDSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(16), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(16))
VADDSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(24), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(24))
ADDQ(Imm(4), RCX)
CMPQ(RSI, RCX)
JNE(LabelRef("LBB2_4"))
}
Label("LBB2_5")
{
TESTQ(RAX, RAX)
JE(LabelRef("LBB2_8"))
LEAQ(Mem{Base: RDI}.Idx(RCX, 8), RCX)
XORL(EDX, EDX)
}
Label("LBB2_7")
{
VADDSD(Mem{Base: RCX}.Idx(RDX, 8), X0, X0)
VMOVSD(X0, Mem{Base: RCX}.Idx(RDX, 8))
ADDQ(Imm(1), RDX)
CMPQ(RAX, RDX)
JNE(LabelRef("LBB2_7"))
}
Label("LBB2_8")
{
RET()
}
}
func genCumSum_F32() {
TEXT("CumSum_AVX2_F32", NOSPLIT, "func(x []float32)")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB3_8"))
LEAQ(Mem{Base: RSI}.Offset(-1), RCX)
MOVL(ESI, EAX)
ANDL(Imm(3), EAX)
CMPQ(RCX, Imm(3))
JAE(LabelRef("LBB3_3"))
VXORPS(X0, X0, X0)
XORL(ECX, ECX)
JMP(LabelRef("LBB3_5"))
Label("LBB3_3")
{
ANDQ(I32(-4), RSI)
VXORPS(X0, X0, X0)
XORL(ECX, ECX)
}
Label("LBB3_4")
{
VADDSS(Mem{Base: RDI}.Idx(RCX, 4), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4))
VADDSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(4), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(4))
VADDSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(8), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(8))
VADDSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(12), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(12))
ADDQ(Imm(4), RCX)
CMPQ(RSI, RCX)
JNE(LabelRef("LBB3_4"))
}
Label("LBB3_5")
{
TESTQ(RAX, RAX)
JE(LabelRef("LBB3_8"))
LEAQ(Mem{Base: RDI}.Idx(RCX, 4), RCX)
XORL(EDX, EDX)
}
Label("LBB3_7")
{
VADDSS(Mem{Base: RCX}.Idx(RDX, 4), X0, X0)
VMOVSS(X0, Mem{Base: RCX}.Idx(RDX, 4))
ADDQ(Imm(1), RDX)
CMPQ(RAX, RDX)
JNE(LabelRef("LBB3_7"))
}
Label("LBB3_8")
{
RET()
}
}
func genProd_F64() {
data := GLOBL("dataProdF64", RODATA|NOPTR)
DATA(0, U64(0x3ff0000000000000))
TEXT("Prod_AVX2_F64", NOSPLIT, "func(x []float64) float64")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB4_1"))
CMPQ(RSI, Imm(16))
JAE(LabelRef("LBB4_4"))
VMOVSD(data.Offset(0), X0)
XORL(EAX, EAX)
JMP(LabelRef("LBB4_11"))
Label("LBB4_1")
{
VMOVSD(data.Offset(0), X0)
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB4_4")
{
MOVQ(RSI, RAX)
ANDQ(I32(-16), RAX)
LEAQ(Mem{Base: RAX}.Offset(-16), RCX)
MOVQ(RCX, R8)
SHRQ(Imm(4), R8)
ADDQ(Imm(1), R8)
TESTQ(RCX, RCX)
JE(LabelRef("LBB4_5"))
MOVQ(R8, RCX)
ANDQ(I32(-2), RCX)
VBROADCASTSD(data.Offset(0), Y0)
XORL(EDX, EDX)
VMOVAPD(Y0, Y1)
VMOVAPD(Y0, Y2)
VMOVAPD(Y0, Y3)
}
Label("LBB4_7")
{
VMULPD(Mem{Base: RDI}.Idx(RDX, 8), Y0, Y0)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(32), Y1, Y1)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(64), Y2, Y2)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(96), Y3, Y3)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(128), Y0, Y0)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(160), Y1, Y1)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(192), Y2, Y2)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(224), Y3, Y3)
ADDQ(Imm(32), RDX)
ADDQ(I32(-2), RCX)
JNE(LabelRef("LBB4_7"))
TESTB(Imm(1), R8B)
JE(LabelRef("LBB4_10"))
}
Label("LBB4_9")
{
VMULPD(Mem{Base: RDI}.Idx(RDX, 8), Y0, Y0)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(32), Y1, Y1)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(64), Y2, Y2)
VMULPD(Mem{Base: RDI}.Idx(RDX, 8).Offset(96), Y3, Y3)
}
Label("LBB4_10")
{
VMULPD(Y3, Y1, Y1)
VMULPD(Y2, Y0, Y0)
VMULPD(Y1, Y0, Y0)
VEXTRACTF128(Imm(1), Y0, X1)
VMULPD(X1, X0, X0)
VPERMILPD(Imm(1), X0, X1)
VMULSD(X1, X0, X0)
CMPQ(RAX, RSI)
JE(LabelRef("LBB4_12"))
}
Label("LBB4_11")
{
VMULSD(Mem{Base: RDI}.Idx(RAX, 8), X0, X0)
ADDQ(Imm(1), RAX)
CMPQ(RSI, RAX)
JNE(LabelRef("LBB4_11"))
}
Label("LBB4_12")
{
VZEROUPPER()
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB4_5")
{
VBROADCASTSD(data.Offset(0), Y0)
XORL(EDX, EDX)
VMOVAPD(Y0, Y1)
VMOVAPD(Y0, Y2)
VMOVAPD(Y0, Y3)
TESTB(Imm(1), R8B)
JNE(LabelRef("LBB4_9"))
JMP(LabelRef("LBB4_10"))
}
}
func genProd_F32() {
data := GLOBL("dataProdF32", RODATA|NOPTR)
DATA(0, U32(0x3f800000))
TEXT("Prod_AVX2_F32", NOSPLIT, "func(x []float32) float32")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB5_1"))
CMPQ(RSI, Imm(32))
JAE(LabelRef("LBB5_4"))
VMOVSS(data.Offset(0), X0)
XORL(EAX, EAX)
JMP(LabelRef("LBB5_11"))
Label("LBB5_1")
{
VMOVSS(data.Offset(0), X0)
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB5_4")
{
MOVQ(RSI, RAX)
ANDQ(I32(-32), RAX)
LEAQ(Mem{Base: RAX}.Offset(-32), RCX)
MOVQ(RCX, R8)
SHRQ(Imm(5), R8)
ADDQ(Imm(1), R8)
TESTQ(RCX, RCX)
JE(LabelRef("LBB5_5"))
MOVQ(R8, RCX)
ANDQ(I32(-2), RCX)
VBROADCASTSS(data.Offset(0), Y0)
XORL(EDX, EDX)
VMOVAPS(Y0, Y1)
VMOVAPS(Y0, Y2)
VMOVAPS(Y0, Y3)
}
Label("LBB5_7")
{
VMULPS(Mem{Base: RDI}.Idx(RDX, 4), Y0, Y0)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(32), Y1, Y1)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(64), Y2, Y2)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(96), Y3, Y3)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(128), Y0, Y0)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(160), Y1, Y1)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(192), Y2, Y2)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(224), Y3, Y3)
ADDQ(Imm(64), RDX)
ADDQ(I32(-2), RCX)
JNE(LabelRef("LBB5_7"))
TESTB(Imm(1), R8B)
JE(LabelRef("LBB5_10"))
}
Label("LBB5_9")
{
VMULPS(Mem{Base: RDI}.Idx(RDX, 4), Y0, Y0)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(32), Y1, Y1)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(64), Y2, Y2)
VMULPS(Mem{Base: RDI}.Idx(RDX, 4).Offset(96), Y3, Y3)
}
Label("LBB5_10")
{
VMULPS(Y3, Y1, Y1)
VMULPS(Y2, Y0, Y0)
VMULPS(Y1, Y0, Y0)
VEXTRACTF128(Imm(1), Y0, X1)
VMULPS(X1, X0, X0)
VPERMILPD(Imm(1), X0, X1)
VMULPS(X1, X0, X0)
VMOVSHDUP(X0, X1)
VMULSS(X1, X0, X0)
CMPQ(RAX, RSI)
JE(LabelRef("LBB5_12"))
}
Label("LBB5_11")
{
VMULSS(Mem{Base: RDI}.Idx(RAX, 4), X0, X0)
ADDQ(Imm(1), RAX)
CMPQ(RSI, RAX)
JNE(LabelRef("LBB5_11"))
}
Label("LBB5_12")
{
VZEROUPPER()
Store(X0, ReturnIndex(0))
RET()
}
Label("LBB5_5")
{
VBROADCASTSS(data.Offset(0), Y0)
XORL(EDX, EDX)
VMOVAPS(Y0, Y1)
VMOVAPS(Y0, Y2)
VMOVAPS(Y0, Y3)
TESTB(Imm(1), R8B)
JNE(LabelRef("LBB5_9"))
JMP(LabelRef("LBB5_10"))
}
}
func genCumProd_F64() {
data := GLOBL("dataCumProdF64", RODATA|NOPTR)
DATA(0, U64(0x3ff0000000000000))
TEXT("CumProd_AVX2_F64", NOSPLIT, "func(x []float64)")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB6_8"))
LEAQ(Mem{Base: RSI}.Offset(-1), RCX)
MOVL(ESI, EAX)
ANDL(Imm(3), EAX)
CMPQ(RCX, Imm(3))
JAE(LabelRef("LBB6_3"))
VMOVSD(data.Offset(0), X0)
XORL(ECX, ECX)
JMP(LabelRef("LBB6_5"))
Label("LBB6_3")
{
ANDQ(I32(-4), RSI)
VMOVSD(data.Offset(0), X0)
XORL(ECX, ECX)
}
Label("LBB6_4")
{
VMULSD(Mem{Base: RDI}.Idx(RCX, 8), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8))
VMULSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(8), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(8))
VMULSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(16), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(16))
VMULSD(Mem{Base: RDI}.Idx(RCX, 8).Offset(24), X0, X0)
VMOVSD(X0, Mem{Base: RDI}.Idx(RCX, 8).Offset(24))
ADDQ(Imm(4), RCX)
CMPQ(RSI, RCX)
JNE(LabelRef("LBB6_4"))
}
Label("LBB6_5")
{
TESTQ(RAX, RAX)
JE(LabelRef("LBB6_8"))
LEAQ(Mem{Base: RDI}.Idx(RCX, 8), RCX)
XORL(EDX, EDX)
}
Label("LBB6_7")
{
VMULSD(Mem{Base: RCX}.Idx(RDX, 8), X0, X0)
VMOVSD(X0, Mem{Base: RCX}.Idx(RDX, 8))
ADDQ(Imm(1), RDX)
CMPQ(RAX, RDX)
JNE(LabelRef("LBB6_7"))
}
Label("LBB6_8")
{
RET()
}
}
func genCumProd_F32() {
data := GLOBL("dataCumProdF32", RODATA|NOPTR)
DATA(0, U32(0x3f800000))
TEXT("CumProd_AVX2_F32", NOSPLIT, "func(x []float32)")
Pragma("noescape")
Load(Param("x").Base(), RDI)
Load(Param("x").Len(), RSI)
TESTQ(RSI, RSI)
JE(LabelRef("LBB7_8"))
LEAQ(Mem{Base: RSI}.Offset(-1), RCX)
MOVL(ESI, EAX)
ANDL(Imm(3), EAX)
CMPQ(RCX, Imm(3))
JAE(LabelRef("LBB7_3"))
VMOVSS(data.Offset(0), X0)
XORL(ECX, ECX)
JMP(LabelRef("LBB7_5"))
Label("LBB7_3")
{
ANDQ(I32(-4), RSI)
VMOVSS(data.Offset(0), X0)
XORL(ECX, ECX)
}
Label("LBB7_4")
{
VMULSS(Mem{Base: RDI}.Idx(RCX, 4), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4))
VMULSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(4), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(4))
VMULSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(8), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(8))
VMULSS(Mem{Base: RDI}.Idx(RCX, 4).Offset(12), X0, X0)
VMOVSS(X0, Mem{Base: RDI}.Idx(RCX, 4).Offset(12))
ADDQ(Imm(4), RCX)
CMPQ(RSI, RCX)
JNE(LabelRef("LBB7_4"))
}
Label("LBB7_5")
{
TESTQ(RAX, RAX)
JE(LabelRef("LBB7_8"))
LEAQ(Mem{Base: RDI}.Idx(RCX, 4), RCX)
XORL(EDX, EDX)
}
Label("LBB7_7")
{
VMULSS(Mem{Base: RCX}.Idx(RDX, 4), X0, X0)
VMOVSS(X0, Mem{Base: RCX}.Idx(RDX, 4))
ADDQ(Imm(1), RDX)
CMPQ(RAX, RDX)
JNE(LabelRef("LBB7_7"))
}
Label("LBB7_8")
{
RET()
}
}
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Go
1
https://gitee.com/quant1x/gox.git
git@gitee.com:quant1x/gox.git
quant1x
gox
gox
v1.19.5

搜索帮助

23e8dbc6 1850385 7e0993f3 1850385