<div dir="ltr">---<br>title: "Week 3"<br>date: 2023-06-15<br>---<br><br>### Model training<br><br>Basic [model training](<a href="https://github.com/baolef/libreoffice-ci/blob/main/train.py">https://github.com/baolef/libreoffice-ci/blob/main/train.py</a>) pipeline is completed with [testselect](<a href="https://github.com/baolef/libreoffice-ci/blob/main/models/testselect.py">https://github.com/baolef/libreoffice-ci/blob/main/models/testselect.py</a>) model. Further optimization is needed to reduce memory and time cost, together with performance.<br><br>Currently, [testselect](<a href="https://github.com/baolef/libreoffice-ci/blob/main/models/testselect.py">https://github.com/baolef/libreoffice-ci/blob/main/models/testselect.py</a>) is trained on a subset of size 16384 (containing training and testing set) of the full dataset of size 122019 due to memory cost, and it has reached a failure recall of 91.4% and saving 90% of unit test computational cost. Its detailed confusion matrix is shown below:<br><br>|               | Fail (Predicted) | Pass (Predicted) |<br>|---------------|------------------|------------------|<br>| Fail (Actual) | 480              | 45               |<br>| Pass (Actual) | 556910           | 5045893          |<br></div>