StampyAI/alignment-research-dataset

Stampy's copy of Alignment Research Dataset scraper

PythonMIT

Issues

"Continue the Conversation" suggestions sourced from unpublished articles
#203 opened 6 months ago by Algon-33
1
Add arxiv papers from Slack
#195 opened a year ago by ccstan99
0
Check pinecone for deleted sources
#142 opened a year ago by ccstan99
0
create a youtube playlist out of all unknown video from special docs
#123 opened a year ago by mruwnik
1
agentmodels working urls by using github urls when websites ones are broken
#184 opened a year ago by Thomas-Lemoine
3
Fix daily dataset updates
#183 opened a year ago by ccstan99
0
Add parsers and blogs
#169 opened a year ago by ccstan99
1
Improve YouTube transcripts
#172 opened a year ago by ccstan99
1
Improve catching duplicate urls
#163 opened a year ago by ccstan99
7
Automatic indeces marking
#156 opened a year ago by markovial
0
Deduplicate alignmentforum & lesswrong
#160 opened a year ago by ccstan99
0
Track subsets in larger dataset
#173 opened a year ago by ccstan99
1
Make embedding_utils.py cleaner by adding a generic process-in-batches function.
#177 opened a year ago by henri123lemoine
0
Pinecone metadata to include confidence & summary
#168 opened a year ago by ccstan99
4
Handle a(g)isafetyfundamentals.com
#165 opened a year ago by ccstan99
0
Fix YouTube authors from playlists
#170 opened a year ago by ccstan99
0
Add 80,000 Hours AI Archive
#153 opened a year ago by ccstan99
0
Add governance.ai
#155 opened a year ago by markovial
0
Add table for storing pinecone metadata
#101 opened a year ago by mruwnik
0
Missing text should be autoscraped
#164 opened a year ago by ccstan99
0
Updating datasets for modified content sources
#96 opened a year ago by Mishaall
0
Create process to allow editors to update the confidence level of documents
#134 opened a year ago by markovial
1
Create process to allow editors to update the confidence level of documents
#107 opened a year ago by markovial
1
Update readme.md
#91 opened a year ago by Thomas-Lemoine
0
Fix titles
#158 opened a year ago by ccstan99
1
Reorganize source and source_type
#140 opened a year ago by ccstan99
0
Add AXRP
#152 opened a year ago by ccstan99
0
Add transformer-circuits.pub
#141 opened a year ago by ccstan99
0
Future special indices should only look for arxiv papers
#135 opened a year ago by markovial
0
Import rest of special docs to SQL
#116 opened a year ago by ccstan99
1
Provide way to update metadata
#126 opened a year ago by ccstan99
0
Properly handle arxiv papers
#125 opened a year ago by ccstan99
0
Fix NULL authors
#122 opened a year ago by ccstan99
0
Deduplicate by content
#128 opened a year ago by ccstan99
0
Decide on special docs workflow
#127 opened a year ago by ccstan99
0
Add command to setup index
#121 opened a year ago by mruwnik
0
Finetune embeddings model
#119 opened a year ago by henri123lemoine
0
Consistent naming
#117 opened a year ago by Thomas-Lemoine
0
Remove gdocs metadata magic docs
#102 opened a year ago by mruwnik
0
change importai and ml_safety_newsletter to SummaryDatasets
#113 opened a year ago by mruwnik
0
Use whisper.ai for youtube transcripts
#112 opened a year ago by mruwnik
0
Remove old jsonl default flow
#100 opened a year ago by mruwnik
0
Fix audio transcripts
#98 opened a year ago by mruwnik
0
add confidence column to articles table
#104 opened a year ago by mruwnik
0
Properly handle authors in the database
#99 opened a year ago by mruwnik
0
add blog.eleuther.ai
#85 opened a year ago by mruwnik
0
add deepmind technical-blogs
#86 opened a year ago by mruwnik
0
Add dataset for openai research
#87 opened a year ago by mruwnik
0
General data cleaning
#95 opened a year ago by Mishaall
1
Validation checks for url and revisions
#84 opened a year ago by ccstan99
0