The reliability gap: as AI writes more code, we need better tools to trust it