"the data it used to train its tokenizer—a tool that helps the model parse and process text more efficiently—is polluted by Chinese spam websites. As a result, the model’s Chinese token library is full of phrases related to pornography and gambling"
@pallenberg Es ist wirklich unverständlich, wie OpenAI so sehenden Auges in das Problem laufen konnte. Bei der Funktionsweise des Modella sind möglichst gute Trainingsdaten unerlässlich. Das Umsteuern (Lizenzverträge mit Zeitungen, Verlagen etc.) kam viel zu spät.
Entweder dachten die, dass es schon noch mal irgendwie gut gehen wird. Oder sie sind dem Traum, dass Transformer-Modelle tatsächlich irgend etwas "verstehen" könnten, selbst erlegen.
Best comment I've read today on Ars Technica by user Resolute:
"When we talk about the risks of Microsoft's Recall feature, it's not Microsoft that I worry about. It is the fact that OpenAI is a major partner that gives me pause.
This company is rapidly approaching Facebook levels of evil."