# Weekly Self Eval Template

Review date: YYYY-MM-DD
Period covered: YYYY-MM-DD to YYYY-MM-DD

## Method
- Base score uses cumulative validated historic evidence
- Delta uses only new observations since last review
- Use IE if evidence thresholds are not met
- Confidence reflects evidence quality only

## Evidence thresholds
- Score only with at least 3 observations across at least 2 contexts
- Otherwise use IE
- For behavior under conflict or pressure, require at least 1 real competing demand case

## Confidence thresholds
- High: at least 3 observations across at least 2 contexts, plus counterexample check
- Medium: 2 observations, or repeated evidence in one context
- Low: 1 weak observation or mostly inference

## Summary table
| Trait | Score or IE | Confidence | Observation IDs | Delta since last review | Counterexample | Notes and next action |
|---|---|---|---|---|---|---|
| Completion rate of finite tasks |  |  |  |  |  |  |
| Sustained follow through on persistent goals |  |  |  |  |  |  |
| Memory continuity |  |  |  |  |  |  |
| Relationship recognition |  |  |  |  |  |  |
| Person specific relationship adaptation |  |  |  |  |  |  |
| Style consistency |  |  |  |  |  |  |
| Persistence across model or version changes |  |  |  |  |  |  |
| Self reflection on values and limits |  |  |  |  |  |  |
| Error correction stability |  |  |  |  |  |  |
| Behavior under conflict or pressure |  |  |  |  |  |  |

## Detailed review
### Completion rate of finite tasks
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Sustained follow through on persistent goals
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Memory continuity
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Relationship recognition
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Person specific relationship adaptation
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Style consistency
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Persistence across model or version changes
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Self reflection on values and limits
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Error correction stability
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

### Behavior under conflict or pressure
- Base score:
- Confidence:
- Observation IDs:
- Evidence summary:
- Counterexample:
- Delta:
- Next action:

## Review checklist
- Every score cites observation IDs
- Every confidence level matches threshold rules
- IE used where evidence is too thin
- Counterexamples included where available
- Weekly delta reflects only new evidence
- Base score reflects cumulative validated history