veryluckyxyz

Tues Sep 30, 2014 10:24pm PST

Karma:

548

submitted

Wed Nov 5, 2025 4:27am PST

Generalizing Test-Time Compute-Optimal Scaling as an Optimizable Graph

@veryluckyxyz

2

Wed Oct 8, 2025 3:54am PST

Hidden drivers of HRM's performance on ARC-AGI

@veryluckyxyz

2

2

31

Tues Sep 9, 2025 2:59am PST

Set Block Decoding Is a Language Model Inference Accelerator

@veryluckyxyz

4

Sun Aug 24, 2025 6:16pm PST

Deep Think with Confidence

@veryluckyxyz

1

Tues Jun 3, 2025 4:42am PST

A Batch Size and Token NUM- BER Agnostic Learning Rate Scheduler

@veryluckyxyz

2

Sun Jun 1, 2025 1:07pm PST

Easily Understand Rdma Technology

@veryluckyxyz

1

1

1

Wed May 21, 2025 1:12am PST

Model Merging in Pre-Training of Large Language Models

@veryluckyxyz

2

Thurs May 15, 2025 3:20am PST

Understanding Perception and Reasoning Through Model Merging

@veryluckyxyz

2

Sat May 10, 2025 3:22pm PST

Building and better understanding vision-language models (2024)

@veryluckyxyz

2

Wed May 7, 2025 1:03pm PST

HF smolagents computer-agent demo

@veryluckyxyz

1

Sat Apr 19, 2025 7:48pm PST

Do Reasoning Models Show Better Verbalized Calibration?

@veryluckyxyz

2

Sun Apr 13, 2025 2:57am PST

Robustly identifying concepts introduced during chat fine-tuning with crosscoder

@veryluckyxyz

6

Fri Mar 21, 2025 10:53pm PST

Retrieval with Learned Similarities

@veryluckyxyz

3

Fri Mar 21, 2025 5:49am PST

The Curse of Depth in Large Language Models

@veryluckyxyz

1

Sat Mar 1, 2025 6:24am PST

Looking Back at Speculative Decoding

@veryluckyxyz

2

5

36

Fri Feb 21, 2025 4:39am PST

Long-Context GRPO

@veryluckyxyz

3

22

60

Fri Feb 7, 2025 5:34am PST

HippoRAG: Neurobiologically Inspired Long-Term Memory for LLMs (2024)

@veryluckyxyz

3

4

65

Fri Jan 31, 2025 10:56am PST

Learning to Plan and Reason for Evaluation with Thinking-LLM-as-a-Judge

@veryluckyxyz

1

Fri Jan 3, 2025 5:15am PST

Process Reinforcement Through Implicit Rewards

@veryluckyxyz

1

Sat Dec 28, 2024 12:44am PST

Explaining Large Language Models Decisions Using Shapley Values

@veryluckyxyz

4

19

89

Wed Dec 25, 2024 12:07pm PST

Phi-4 Technical Report

@veryluckyxyz

2

Fri Dec 20, 2024 6:03am PST

Alignment Faking in LLMs [pdf]

@veryluckyxyz

1

1

2

Mon Nov 18, 2024 4:48am PST

What Makes Rotary Positional Encodings Useful?

@veryluckyxyz

1

Sun Oct 27, 2024 3:42am PST

Rethinking Softmax: Self-Attention with Polynomial Activations

@veryluckyxyz

2

Sat Oct 26, 2024 5:47am PST

Post-Training Layer Scaling Prevents Forgetting and Enhances Model Merging

@veryluckyxyz

1

Wed Sep 18, 2024 11:56am PST

Random Matrix Theory in Machine Learning Tutorial

@veryluckyxyz

2

Tues Sep 17, 2024 5:17am PST

Rerankers: A Lightweight Python Library to Unify Ranking Methods

@veryluckyxyz

1

Sun Sep 15, 2024 6:48pm PST

Double Descent Demystified

@veryluckyxyz

1

Sat Sep 14, 2024 5:20am PST

Synthetic Continued Pretraining

@veryluckyxyz

3

Sun Jul 21, 2024 4:08am PST

Bright: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

@veryluckyxyz

1

Sat Jun 29, 2024 4:55am PST

Artificial needles to real haystacks: Improving retrieval capabilities in LLMs

@veryluckyxyz

5

21

101

Sat Jun 29, 2024 1:43am PST

From Decoding to Meta-Generation: (LLMs)

@veryluckyxyz

2

Wed Jun 26, 2024 5:09am PST

Warp: On the Benefits of Weight Averaged Rewarded Policies

@veryluckyxyz

2

Wed Jun 26, 2024 1:27am PST

Experiments in Weak-to-Strong Generalization

@veryluckyxyz

1

Wed May 29, 2024 5:27am PST

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

@veryluckyxyz

3

Sat May 25, 2024 3:04pm PST

A Case Study in CUDA Kernel Fusion

@veryluckyxyz

1

Sat May 25, 2024 11:42am PST

Lessons from the trenches on reproducible evaluation of language models

@veryluckyxyz

3

3

42

Wed May 22, 2024 4:13am PST

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

@veryluckyxyz

2

Wed May 15, 2024 2:41pm PST

Zero-Shot Tokenizer Transfer

@veryluckyxyz

2

Tues May 14, 2024 4:48pm PST

An Empirical Model of Large-Batch Training

@veryluckyxyz

2

Tues May 14, 2024 4:40pm PST

Gradient Diversity: A Key Ingredient for Scalable Distributed Learning

@veryluckyxyz

3

Mon May 13, 2024 8:48pm PST

Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

@veryluckyxyz

1

Sun May 12, 2024 6:46am PST

Automatically Detecting Under-Trained Tokens in Large Language Models

@veryluckyxyz

6

26

182

Sat May 4, 2024 10:35pm PST

Large Language Models for Data Annotation: A Survey

@veryluckyxyz

2

Fri May 3, 2024 12:55am PST

Refusal in LLMs is mediated by a single direction

@veryluckyxyz

6

20

110

Thurs May 2, 2024 5:56am PST

Automated Multi Agent Chat

@veryluckyxyz

2

Tues Apr 30, 2024 12:29pm PST

Orca: A Distributed Serving System for Transformer-Based Generative Models

@veryluckyxyz

1

1

3

Tues Apr 30, 2024 11:44am PST

Understanding Emergent Abilities of Language Models from the Loss Perspective

@veryluckyxyz

1

1

2

Sun Apr 28, 2024 1:41pm PST

LoRA+: Efficient Low Rank Adaptation of Large Models

@veryluckyxyz

7

47

181

Wed Apr 10, 2024 12:37pm PST

Does Transformer Interpretability Transfer to RNNs?

@veryluckyxyz

3

Wed Apr 10, 2024 12:25pm PST

MiniCPM: Potential of Small Language Models W Scalable Training Strategies

@veryluckyxyz

2

Wed Apr 10, 2024 11:47am PST

Building BerkeleyDB

@veryluckyxyz

2

Mon Mar 25, 2024 12:35am PST

Rotational Equilibrium: How Weight Decay Balances Learning Across NeuralNetworks

@veryluckyxyz

2

Sun Mar 17, 2024 12:23am PST

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

@veryluckyxyz

3

Wed Jun 1, 2016 2:38am PST

Bad arguments against a universal basic income

@veryluckyxyz

1

3

6

Mon Aug 24, 2015 9:58pm PST

The MOOC revolution that wasn’t

@veryluckyxyz

4

Mon Aug 3, 2015 3:22am PST

Tech industry's persistent claim of worker shortage may be phony

@veryluckyxyz

29

189

131

Tues Apr 21, 2015 6:25pm PST

Why We've Decided to Organize

@veryluckyxyz

1

Fri Jan 16, 2015 6:15pm PST

Ask HN: Where can I get info about who voted (up or down) articles/comments ?

@veryluckyxyz

1

4

1

Tues Sep 30, 2014 10:28pm PST

Ask HN: How are Reddit and HN different for you?

@veryluckyxyz

3

6

2