La Syndication de Site Internet
Ou : Comment disposer automatiquement des articles et news de Minet.net ?
Le Contenu est la raison d’être de tout site web ou portail Internet. Parce que le webmaster ne tient souvent pas à passer toute sa journée à trier du nouveau contenu sur Internet avant de réécrire celui qui est pertinent à son site, il y a depuis longtemps un besoin pour un processus automatique de propagation du contenu entre sites web. Ce processus automatique existe et est appelé syndication de site.
Le(s) Auteur(s)
Clark
Ingénieur Informaticien chez Klee, je suis titulaire d’un Master of Science en informatique de Dublin et d’un diplôme de l’INT (acquis de haute lutte !). Je m’occupe de plusieurs sites dont TerriTech et Pikolint. Enfin, c’est ma faute si le site MiNET est parfois buggé... Cela veut juste dire que je tente des trucs avec les CSS ;)
site - Clarky’s Corner contact - clark@minet.netHistorique du RSS
Une histoire de portail...
RDF Site Summary (RSS) [1] est le format XML de syndication le plus utilisé actuellement sur Internet. En fait, c’est sans doute tout simplement l’un des formats XML les plus utilisés sur Internet. C’est un format qui a été inventé par Netscape, et proposé à partir de 1999, sous sa version 0.90 [2]. Lorsqu’il a été publié, Netscape l’a présenté comme étant un cadre destiné à la description de canaux pour son Portail de My Netscape Network (MNN). Bien que le concept de ce type de portail ne soit pas du tout impressionant, même à l’époque, le mécanisme de récupération du contenu proposé par Netscape était quant à lui tout à fait novateur. En effet, cette application XML toute bête établissait une relation entre Netscape, les fournisseurs de contenu, et les utilisateurs finaux, dans laquelle tous trouvaient leur bonheur.
En fournissant ce simple instantané de leur contenu, les éditeurs de sites web gagnaient de l’audience grâce à leur présence sur le portail de Netscape. Les utilisateurs finaux obtenaient un espace centralisé où ils pouvaient trouver le contenu des sites web de leur choix, par opposition à certains portails courants de l’époque dont le contenu était insipide et peu percutant. Finalement, Netscape gagnait de l’audience grâce à ce service unique. Mais surtout, c’était un moyen simple et automatique pour la compagnie de se procurer du contenu gratuit à mettre sur son portail.
Le début du succès
Une des conséquences du travail sur le MNN fut que RSS pouvait dès lors être utilisé comme format léger de syndication pour des titres d’information par exemple, tout en sortant du contexte du portail My Netscape. Des portails d’informations basés sur le RSS commencèrent à pulluler, et ce dans tous les genres. Certaines applications, comme le Headline Viewer affranchirent même le RSS du Web, en amenant le contenu directement sur la machine de l’utilisateur. RSS devint ainsi rapidement une alternative standard à des systèmes de syndications ad-hoc, ou bien une alternative pratique et légère aux standards poids-lourd de l’époque qui étaient souvent surdimensionnés. On retrouve aujourd’hui le RSS pour des types de contenus aussi variés que des titres d’information, des forums de discussion, des annonces de parution de logiciels, ou tous types de données propriétaires.
Les différentes versions
La version 0.91 [3] sortit peu après (juillet 1999). Elle avait mis un pied dans les RDF [4], et avait emprunté des éléments à ScriptingNews, un format de syndication plus ancien et plus lourd, ciblé sur l’écriture web et où chaque objet est un paragraphe pouvant contenir liens et images. Ces modifications marquaient la transition d’un aspect metadata "résumé" vers un aspect plus syndication proprement dite. Ainsi, le nouvel élément <description>, limité à 500 caractères, introduisait le RSS dans l’arène de la syndication (légère) de contenu.
La version 1.0 [5] date de décembre 2000 et a été élaborée par le RSS-DEV Working Group (donc plus uniquement par Netscape). Elle est conforme aux spécifications RDF du W3C. Cependant, elle n’est rien de plus qu’une version mature de la 0.91, et on se rend compte encore aujourd’hui que peu de sites proposant du contenu syndiqué utilisent la version 1.0 du RSS ; la plupart en sont restés à la 0.91.
Aller plus loin...
Depuis août 2002, UserLand propose une version 2.0 du RSS [6]. Cette version perd largement en légèreté, au profit d’une augmentation des fonctionnalités. Cependant, il est à noter que cette version semble ne pas avoir été reconnue ni par le RSS-DEV Working Group, ni par le W3C. A ce titre, l’utiliser pourrait certainement poser des problèmes d’incompatibilité.
Plus intéressant, Open Content Syndication (OCS) est une évolution du RSS 1.0 qui est en cours d’élaboration, mais qui commence déjà à être utilisée par un certain nombre de sites (voir leur site pour plus d’information).
Apprenons par l’exemple...
Sans rentrer (trop) dans les détails, voici une petite description d’un fichier RSS v0.91 type. Si vous avez suivi, vous savez que c’est ce format qui est actuellement le plus usité sur les différents sites proposant de la syndication.
<?xml version="1.0" encoding="UTF-8" ?>
<rss version="0.91">
<!DOCTYPE rss PUBLIC "-//Netscape Communications//DTD RSS 0.91//EN"
"http://my.netscape.com/publish/formats/rss-0.91.dtd">
<channel>
<title>titre du site web</title>
<link>url du site</link>
<description>rapide description du site</description>
<language>fr-fr</language>
<image>
<title>titre de l'image</title>
<url>url de la source de l'image</url>
<link>clicker sur l'image renvoie à cette url</link>
</image>
<item>
<title>titre de la news</title>
<link>url absolu de l'article</link>
<description>résumé rapide de l'article</description>
</item>
</channel>
</rss>L’élément <image> est optionel, mais si vous voulez que le logo de votre site puisse apparaître avec votre contenu, il vous faudra le renseigner ici. L’élément <link> à l’intérieur de <image> est rarement (jamais ?) utilisé pour cause de redondance probable avec l’élément <link> supérieur, mais sachez que cette balise est disponible. La taille standard, et celle par défaut, d’une telle image est 88x31, et il est conseillé de s’y tenir. En effet, les webmasters s’attendent à des dimensions de cet ordre-là et écrivent les squelettes de leur site en conséquence.
Dans le code présenté ci-dessus, vous pouvez noter qu’il n’y a qu’un seul article syndiqué. Si vous désirez syndiquer plus d’information, il suffit d’empiler les blocs <item>...</item> les uns à la suite des autres. Cependant, notez que vous êtes limités théoriquement par les spécifications à 15 blocs. Il semblerait que les applications qui analysent et utilisent le RSS se satisfassent d’un nombre de blocs supérieur à 15.
Finalement, la dernière recommandation est de faire attention à la taille de la <description>. En effet, comme indiqué plus haut, cet élément est limité à 500 caractères. Hors, suivant la rigidité avec laquelle l’application qui exploite le fichier en question adhère à la norme RSS, vous pourriez avoir des résultats tout à fait surprenants et malvenus.
Et MiNET dans tout ça ?
Comme on est cool à MiNET, et qu’on veut faire profiter le plus grand nombre de la qualité du contenu de notre site web, et puis surtout parce qu’on utilise SPIP, ce qui rend tout le processus très simple, nous proposons deux fichiers pour deux types de syndication :
- http://www.minet.net/spip/spip.php?... vous propose un résumé des derniers articles publiés sur MiNET.net.
- http://www.minet.net/spip/spip.php?... vous propose un résumé des dernières brèves publiées sur MiNET.net.
Vous êtes libres d’utiliser ces fichiers si le coeur vous en dit. Cependant, dans un souci d’économie de bande passante, nous vous serions reconnaissants de ne pas recharger les fichiers toutes les heures, d’autant plus que la richesse éditoriale du site ne le justifie pas.
Et enfin, si vous voulez bien nous envoyer un mail pour nous dire que vous syndiquez le contenu de MiNET.net sur votre site et que vous trouvez ça génial, nous en serions tous contents.
je me suis largement inspiré des articles suivants pour l’écriture de ce document :
Je me permets de vous signaler les sites suivants qui sont dignes d’intérêt si vous voulez aller plus loin :
- Le RSS Devcenter chez O’Reilly
- Why Would You Use RSS ?
- Un article des DeveloperWorks IBM
- Une excellent FAQ
- Un tutorial beaucoup plus complet
- Encore un autre tutorial RSS
Copyright 2003 Laurent Cottereau Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation ; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled "GNU Free Documentation License".
All scripts in this document are free software ; you can redistribute them and/or modify them under the terms of the GNU General Public License as published by the Free Software Foundation ; either version 2 of the License, or any later version.
These scripts are distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY ; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
You should have received a copy of the GNU General Public License along with this program ; if not, write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
[1] Selon différentes sources l’acronyme signifierait Rich Site Summary dans des versions antérieures à 1.0 ou encore le plus folklorique Really Simple Syndication. L’acronyme utilisé ici est celui trouvé sur le site du World Wide Web Consortium.
[2] Netscape a supprimé le lien vers les spécifications, mais leur dernière version connue est disponible ici.
[3] Vous pourrez trouver les spécifications de la version 0.91 ici.
[4] RDF signifie Resource Description Framework. C’est un standard du W3C.
[5] Vous pourrez trouver les spécifications de la version 1.0 ici.
[6] Vous pourrez trouver les spécifications de la version 2.0 proposée par UseLand ici.
Réagir à cet article
Forum de l'article
-
La Syndication de Site Internet : RSS + Ping
26 octobre 2005, par Net.Com.ViraleJe me suis "amusé" à recenser les annuaires de sources RSS ayant une fonction de Ping, et il y en a plus de 70 mais peu francophone (voir l’article : http://net.com.virale.over-blog.com/article-1078972.html)
Si l’on regarde bien, un annuaire RSS avec la fonction de Ping, n’est ce pas plus performant qu’un moteur de recherche ?
Cela indexe le contenu,
C’est immédiat (pas les moteurs),
et c’est plus économique (il ne scanne que sur publication, jamais entre 2).Et Google dans tout ça ...
Didier
Article >> 72 annuaires RSS + Ping RSS
Répondre à ce message